Code cleanup: simplify kernel side work stealing code.
[blender-staging.git] / intern / cycles / kernel / kernel_work_stealing.h
1 /*
2  * Copyright 2011-2015 Blender Foundation
3  *
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at
7  *
8  * http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  */
16
17 #ifndef __KERNEL_WORK_STEALING_H__
18 #define __KERNEL_WORK_STEALING_H__
19
20 CCL_NAMESPACE_BEGIN
21
22 /*
23  * Utility functions for work stealing
24  */
25
26 #ifdef __KERNEL_OPENCL__
27 #  pragma OPENCL EXTENSION cl_khr_global_int32_base_atomics : enable
28 #endif
29
30 /* Returns true if there is work */
31 ccl_device bool get_next_work(KernelGlobals *kg,
32                               uint thread_index,
33                               ccl_private uint *global_work_index)
34 {
35         uint total_work_size = kernel_split_params.w
36                              * kernel_split_params.h
37                              * kernel_split_params.num_samples;
38
39         /* With a small amount of work there may be more threads than work due to
40          * rounding up of global size, stop such threads immediately. */
41         if(thread_index >= total_work_size) {
42                 return false;
43         }
44
45         /* Increase atomic work index counter in pool. */
46         uint pool = thread_index / WORK_POOL_SIZE;
47         uint work_index = atomic_fetch_and_inc_uint32(&kernel_split_params.work_pools[pool]);
48
49         /* Map per-pool work index to a global work index. */
50         uint global_size = ccl_global_size(0) * ccl_global_size(1);
51         kernel_assert(global_size % WORK_POOL_SIZE == 0);
52         kernel_assert(thread_index < global_size);
53
54         *global_work_index = (work_index / WORK_POOL_SIZE) * global_size
55                            + (pool * WORK_POOL_SIZE)
56                            + (work_index % WORK_POOL_SIZE);
57
58         /* Test if all work for this pool is done. */
59         return (*global_work_index < total_work_size);
60 }
61
62 /* Map global work index to pixel X/Y and sample. */
63 ccl_device_inline void get_work_pixel(KernelGlobals *kg,
64                                       uint global_work_index,
65                                       ccl_private uint *x,
66                                       ccl_private uint *y,
67                                       ccl_private uint *sample)
68 {
69         uint tile_pixels = kernel_split_params.w * kernel_split_params.h;
70         uint sample_offset = global_work_index / tile_pixels;
71         uint pixel_offset = global_work_index - sample_offset * tile_pixels;
72         uint y_offset = pixel_offset / kernel_split_params.w;
73         uint x_offset = pixel_offset - y_offset * kernel_split_params.w;
74
75         *x = kernel_split_params.x + x_offset;
76         *y = kernel_split_params.y + y_offset;
77         *sample = kernel_split_params.start_sample + sample_offset;
78 }
79
80 CCL_NAMESPACE_END
81
82 #endif  /* __KERNEL_WORK_STEALING_H__ */