Homework 0 (Discrete Fourier Transform) 以及

I have some questions:
(1)
for i, j in pixels:

for i, j in pixels:

第二个循环会被并行吗?如果第二个是在tf.func里面呢?
(2)
for i, j in pixels:
pixels[i, j] = xxx
for i, j in pixels:
pixels[(i + offset)%size, (j + offset)%size] = xxx
在效率上会有明显区别吗?
(3)
pixels = ti.var(dt=ti.f32, shape=(size, size))
怎样高效的得到pixels里面最大的值

DFT code

# Follow https://homepages.inf.ed.ac.uk/rbf/HIPR2/fourier.htm

import taichi as ti
from PIL import Image
import numpy as np
from math import pi

ti.init(arch=ti.gpu)

size = 512

def read_image(path):
    image = Image.open(path).convert('LA')
    # resize to square image
    image = image.resize([size, size])
    data = np.asarray(image)
    data = np.cast[np.float32](data)
    # Convert to grey value within [0, 1]
    return data[:, :, 0] / data[:, :, 1]

def show_image(data, scale=True):
    if scale:
        data = data / np.max(data)
    data = data * 255.0
    c = np.ones_like(data) * 255.0
    data = np.stack([data, c], -1)
    data = np.cast[np.uint8](data)
    img = Image.fromarray(data, 'LA')
    img.show()

pixels = ti.var(dt=ti.f32, shape=(size, size))
results = ti.var(dt=ti.f32, shape=(size, size))

path = input('image path: ')
pixels.from_numpy(read_image(path))

@ti.kernel
def fourier():
    # parallel
    for k, l in results:
        v = ti.Vector([0.0, 0.0])
        for i in range(size):
            for j in range(size):
                center = size // 2
                kk = (k + center) % size
                ll = (l + center) % size
                angle = -2.0 * pi * (kk * i + ll * j) / float(size)
                p = ti.Vector([ti.cos(angle), ti.sin(angle)])
                v += pixels[i, j] * p
        center = size // 2
        results[k, l] = ti.log(1.0 + v.norm())

fourier()
data = results.to_numpy()
show_image(data)

Lenna的结果

2 个赞

第二层循环内不会自动并行,只有最外层的会。
func 会强制内联所以目测是一样的。
ref: GAMES201 第一节课 直播录像 | 并行循环 49:34

实际试一试?benchmark 一下

如果 pixels 稀疏估计是不行了。
稠密的情况你每次都多一个取余,我猜有可能会更慢。

不知道。


建议改一下分区,放到 “GAMES201 高级物理引擎实战”。(点标题右侧的笔🖊可以修改分区)

第二层循环内不会自动并行,只有最外层的会。
func 会强制内联所以目测是一样的。
ref: GAMES201 第一节课 直播录像 | 并行循环 49:34

谢谢!排版问题。。。我发帖的时候两个循环是同一层的。应该都可以并行。只是想确认下

实际试一试?benchmark 一下

如果 pixels 稀疏估计是不行了。
稠密的情况你每次都多一个取余,我猜有可能会更慢。

我的问题是如果外层是在i,j上循环,但是访问的不是pixel[i, j]。性能会差别很大吗?mod应该对性能影响不大。

建议改一下分区,放到 “GAMES201 高级物理引擎实战”。(点标题右侧的笔🖊可以修改分区)

谢谢,已改。

我的问题是如果外层是在i,j上循环,但是访问的不是pixel[i, j]。性能会差别很大吗?mod应该对性能影响不大。

不会有区别,和for i, j in ti.ndrange(512, 512)一样的。