内存爆炸问题 #6

Open
opened 2022-06-01 07:34:01 +08:00 by 2437708352 · 3 comments
Owner

任务表述:使用ray模式进行调用算法时,极大概率会出现内存爆炸的问题,如下图所示。
解决方案:在git搜索类似问题,希望可以找到类似tensorflow一样锁内存的方法。

任务表述:使用ray模式进行调用算法时,极大概率会出现内存爆炸的问题,如下图所示。 解决方案:在git搜索类似问题,希望可以找到类似tensorflow一样锁内存的方法。
Author
Owner

进度:结合git的issue搜索,和自己在中文论坛上的一些资料查找。几个可能用到的中文网站会放下面。
说明:1、init只能设置两个参数,一个是redis地址,一个是ray地址(但是现在一定是合二为一的)2、资源设置有三个参数,内存、gpu和cpu,且都是在remote初始化时就必须完成。
问题:1、现在出了点状况,我tm电脑就一个gpu,设置GPU有两个,结果竟然能跑,具体原因我在找。
2、ppid的设置,是和cpu有关系,还是和内存有关系,ray运行机制是怎么样的?

进度:结合git的issue搜索,和自己在中文论坛上的一些资料查找。几个可能用到的中文网站会放下面。 说明:1、init只能设置两个参数,一个是redis地址,一个是ray地址(但是现在一定是合二为一的)2、资源设置有三个参数,内存、gpu和cpu,且都是在remote初始化时就必须完成。 问题:1、现在出了点状况,我tm电脑就一个gpu,设置GPU有两个,结果竟然能跑,具体原因我在找。 2、ppid的设置,是和cpu有关系,还是和内存有关系,ray运行机制是怎么样的?
Author
Owner

进度:结合git的issue搜索,和自己在中文论坛上的一些资料查找。几个可能用到的中文网站会放下面。
说明:1、init只能设置两个参数,一个是redis地址,一个是ray地址(但是现在一定是合二为一的)2、资源设置有三个参数,内存、gpu和cpu,且都是在remote初始化时就必须完成。
问题:1、现在出了点状况,我tm电脑就一个gpu,设置GPU有两个,结果竟然能跑,具体原因我在找。
2、ppid的设置,是和cpu有关系,还是和内存有关系,ray运行机制是怎么样的?

这问题1有误,最后发现是因为运行时运行错代码了,正常情况下设置gpu为2会表示一直无法跑,但是哪怕设置cpu为2还是无法跑啊

> 进度:结合git的issue搜索,和自己在中文论坛上的一些资料查找。几个可能用到的中文网站会放下面。 > 说明:1、init只能设置两个参数,一个是redis地址,一个是ray地址(但是现在一定是合二为一的)2、资源设置有三个参数,内存、gpu和cpu,且都是在remote初始化时就必须完成。 > 问题:1、现在出了点状况,我tm电脑就一个gpu,设置GPU有两个,结果竟然能跑,具体原因我在找。 > 2、ppid的设置,是和cpu有关系,还是和内存有关系,ray运行机制是怎么样的? 这问题1有误,最后发现是因为运行时运行错代码了,正常情况下设置gpu为2会表示一直无法跑,但是哪怕设置cpu为2还是无法跑啊
Author
Owner

结论:可以设置的所有参数如下:
['num_returns', 'num_cpus', 'num_gpus', 'memory', 'object_store_memory', 'resources', 'accelerator_type', 'max_calls', 'max_restarts', 'max_task_retries', 'max_retries', 'runtime_env', 'retry_exceptions', 'placement_group', 'concurrency_groups', 'scheduling_strategy']
本地模式碰到的问题:1、本地模式头结点就是计算资源;异地模式头结点是个管理者。所以,本地模式设置资源会出现输入不符合格式的问题,异地模式是否会出现我需要复工后再确认。2、memory:运算用内存。ob_memory: 整体用内存。3、设置东西必须要在remote里设置,那里是表示类实际占用资源。init里是表示占用资源上限,简而言之就是基本没用。4、redis和ray理论上可以分别设置地址,但是现在这版本ray是完全依赖于redis的,所以也用不了。

结论:可以设置的所有参数如下: ['num_returns', 'num_cpus', 'num_gpus', 'memory', 'object_store_memory', 'resources', 'accelerator_type', 'max_calls', 'max_restarts', 'max_task_retries', 'max_retries', 'runtime_env', 'retry_exceptions', 'placement_group', 'concurrency_groups', 'scheduling_strategy'] 本地模式碰到的问题:1、本地模式头结点就是计算资源;异地模式头结点是个管理者。所以,本地模式设置资源会出现输入不符合格式的问题,异地模式是否会出现我需要复工后再确认。2、memory:运算用内存。ob_memory: 整体用内存。3、设置东西必须要在remote里设置,那里是表示类实际占用资源。init里是表示占用资源上限,简而言之就是基本没用。4、redis和ray理论上可以分别设置地址,但是现在这版本ray是完全依赖于redis的,所以也用不了。
2437708352 added the
enhancement
label 2022-06-06 17:15:46 +08:00
Sign in to join this conversation.
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: 2437708352/python_ray#6
No description provided.