电玩赌博游戏机的技术,星空棋牌银子来源,诸神皇冠官网手游攻略视频教程大全最新版本下载 (中国)·官方网站

Python 在程序并行化方面多少有些聲名狼藉。撇開技術上的問題，例如線程的實現和 GIL，我覺得錯誤的教學指導才是主要問題。常見的經典 Python 多線程、多進程教程多顯得偏"重"。而且往往隔靴搔癢，沒有深入探討日常工作中最有用的內容。

傳統的例子

簡單搜索下"Python 多線程教程"，不難發現幾乎所有的教程都給出涉及類和隊列的例子：

import os 
import PIL 

from multiprocessing import Pool 
from PIL import Image

SIZE = (75,75)
SAVE_DIRECTORY = 'thumbs'

def get_image_paths(folder):
  return (os.path.join(folder, f) 
      for f in os.listdir(folder) 
      if 'jpeg' in f)

def create_thumbnail(filename): 
  im = Image.open(filename)
  im.thumbnail(SIZE, Image.ANTIALIAS)
  base, fname = os.path.split(filename) 
  save_path = os.path.join(base, SAVE_DIRECTORY, fname)
  im.save(save_path)

if __name__ == '__main__':
  folder = os.path.abspath(
    '11_18_2013_R000_IQM_Big_Sur_Mon__e10d1958e7b766c3e840')
  os.mkdir(os.path.join(folder, SAVE_DIRECTORY))

  images = get_image_paths(folder)

  pool = Pool()
  pool.map(creat_thumbnail, images)
  pool.close()
  pool.join()

哈，看起來有些像 Java 不是嗎？

我并不是說使用生產者/消費者模型處理多線程/多進程任務是錯誤的（事實上，這一模型自有其用武之地）。只是，處理日常腳本任務時我們可以使用更有效率的模型。

問題在于…

首先，你需要一個樣板類；
其次，你需要一個隊列來傳遞對象；
而且，你還需要在通道兩端都構建相應的方法來協助其工作（如果需想要進行雙向通信或是保存結果還需要再引入一個隊列）。

worker 越多，問題越多

按照這一思路，你現在需要一個 worker 線程的線程池。下面是一篇 IBM 經典教程中的例子——在進行網頁檢索時通過多線程進行加速。

#Example2.py
'''
A more realistic thread pool example 
'''

import time 
import threading 
import Queue 
import urllib2 

class Consumer(threading.Thread): 
  def __init__(self, queue): 
    threading.Thread.__init__(self)
    self._queue = queue 

  def run(self):
    while True: 
      content = self._queue.get() 
      if isinstance(content, str) and content == 'quit':
        break
      response = urllib2.urlopen(content)
    print 'Bye byes!'

def Producer():
  urls = [
    'http://www.python.org', 'http://www.yahoo.com'
    'http://www.scala.org', 'http://www.google.com'
    # etc.. 
  ]
  queue = Queue.Queue()
  worker_threads = build_worker_pool(queue, 4)
  start_time = time.time()

  # Add the urls to process
  for url in urls: 
    queue.put(url) 
  # Add the poison pillv
  for worker in worker_threads:
    queue.put('quit')
  for worker in worker_threads:
    worker.join()

  print 'Done! Time taken: {}'.format(time.time() - start_time)

def build_worker_pool(queue, size):
  workers = []
  for _ in range(size):
    worker = Consumer(queue)
    worker.start() 
    workers.append(worker)
  return workers

if __name__ == '__main__':
  Producer()

這段代碼能正確的運行，但仔細看看我們需要做些什么：構造不同的方法、追蹤一系列的線程，還有為了解決惱人的死鎖問題，我們需要進行一系列的 join 操作。這還只是開始……

至此我們回顧了經典的多線程教程，多少有些空洞不是嗎？樣板化而且易出錯，這樣事倍功半的風格顯然不那么適合日常使用，好在我們還有更好的方法。

何不試試 map

map 這一小巧精致的函數是簡捷實現 Python 程序并行化的關鍵。map 源于 Lisp 這類函數式編程語言。它可以通過一個序列實現兩個函數之間的映射。

  urls = ['http://www.yahoo.com', 'http://www.reddit.com']
  results = map(urllib2.urlopen, urls)

上面的這兩行代碼將 urls 這一序列中的每個元素作為參數傳遞到 urlopen 方法中，并將所有結果保存到 results 這一列表中。其結果大致相當于：

results = []
for url in urls: 
  results.append(urllib2.urlopen(url))

map 函數一手包辦了序列操作、參數傳遞和結果保存等一系列的操作。

為什么這很重要呢？這是因為借助正確的庫，map 可以輕松實現并行化操作。

在 Python 中有個兩個庫包含了 map 函數：multiprocessing 和它鮮為人知的子庫 multiprocessing.dummy.

這里多扯兩句：multiprocessing.dummy？mltiprocessing 庫的線程版克隆？這是蝦米？即便在 multiprocessing 庫的官方文檔里關于這一子庫也只有一句相關描述。而這句描述譯成人話基本就是說:"嘛，有這么個東西，你知道就成."相信我，這個庫被嚴重低估了！

dummy 是 multiprocessing 模塊的完整克隆，唯一的不同在于 multiprocessing 作用于進程，而 dummy 模塊作用于線程（因此也包括了 Python 所有常見的多線程限制）。
所以替換使用這兩個庫異常容易。你可以針對 IO 密集型任務和 CPU 密集型任務來選擇不同的庫。

動手嘗試

使用下面的兩行代碼來引用包含并行化 map 函數的庫：

from multiprocessing import Pool
from multiprocessing.dummy import Pool as ThreadPool

實例化 Pool 對象：

pool = ThreadPool()

這條簡單的語句替代了 example2.py 中 buildworkerpool 函數 7 行代碼的工作。它生成了一系列的 worker 線程并完成初始化工作、將它們儲存在變量中以方便訪問。

Pool 對象有一些參數，這里我所需要關注的只是它的第一個參數：processes. 這一參數用于設定線程池中的線程數。其默認值為當前機器 CPU 的核數。

一般來說，執行 CPU 密集型任務時，調用越多的核速度就越快。但是當處理網絡密集型任務時，事情有有些難以預計了，通過實驗來確定線程池的大小才是明智的。

pool = ThreadPool(4) # Sets the pool size to 4

線程數過多時，切換線程所消耗的時間甚至會超過實際工作時間。對于不同的工作，通過嘗試來找到線程池大小的最優值是個不錯的主意。

創建好 Pool 對象后，并行化的程序便呼之欲出了。我們來看看改寫后的 example2.py

import urllib2 
from multiprocessing.dummy import Pool as ThreadPool 

urls = [
  'http://www.python.org', 
  'http://www.python.org/about/',
  'http://www.onlamp.com/pub/a/python/2003/04/17/metaclasses.html',
  'http://www.python.org/doc/',
  'http://www.python.org/download/',
  'http://www.python.org/getit/',
  'http://www.python.org/community/',
  'https://wiki.python.org/moin/',
  'http://planet.python.org/',
  'https://wiki.python.org/moin/LocalUserGroups',
  'http://www.python.org/psf/',
  'http://docs.python.org/devguide/',
  'http://www.python.org/community/awards/'
  # etc.. 
  ]

# Make the Pool of workers
pool = ThreadPool(4) 
# Open the urls in their own threads
# and return the results
results = pool.map(urllib2.urlopen, urls)
#close the pool and wait for the work to finish 
pool.close() 
pool.join()

實際起作用的代碼只有 4 行，其中只有一行是關鍵的。map 函數輕而易舉的取代了前文中超過 40 行的例子。為了更有趣一些，我統計了不同方法、不同線程池大小的耗時情況。

# results = [] 
# for url in urls:
#  result = urllib2.urlopen(url)
#  results.append(result)

# # ------- VERSUS ------- # 

# # ------- 4 Pool ------- # 
# pool = ThreadPool(4) 
# results = pool.map(urllib2.urlopen, urls)

# # ------- 8 Pool ------- # 

# pool = ThreadPool(8) 
# results = pool.map(urllib2.urlopen, urls)

# # ------- 13 Pool ------- # 

# pool = ThreadPool(13) 
# results = pool.map(urllib2.urlopen, urls)

結果：

#    Single thread: 14.4 Seconds 
#        4 Pool:  3.1 Seconds
#        8 Pool:  1.4 Seconds
#       13 Pool:  1.3 Seconds

很棒的結果不是嗎？這一結果也說明了為什么要通過實驗來確定線程池的大小。在我的機器上當線程池大小大于 9 帶來的收益就十分有限了。

另一個真實的例子

生成上千張圖片的縮略圖
這是一個 CPU 密集型的任務，并且十分適合進行并行化。

基礎單進程版本

import os 
import PIL 

from multiprocessing import Pool 
from PIL import Image

SIZE = (75,75)
SAVE_DIRECTORY = 'thumbs'

def get_image_paths(folder):
  return (os.path.join(folder, f) 
      for f in os.listdir(folder) 
      if 'jpeg' in f)

def create_thumbnail(filename): 
  im = Image.open(filename)
  im.thumbnail(SIZE, Image.ANTIALIAS)
  base, fname = os.path.split(filename) 
  save_path = os.path.join(base, SAVE_DIRECTORY, fname)
  im.save(save_path)

if __name__ == '__main__':
  folder = os.path.abspath(
    '11_18_2013_R000_IQM_Big_Sur_Mon__e10d1958e7b766c3e840')
  os.mkdir(os.path.join(folder, SAVE_DIRECTORY))

  images = get_image_paths(folder)

  for image in images:
    create_thumbnail(Image)

上邊這段代碼的主要工作就是將遍歷傳入的文件夾中的圖片文件，一一生成縮略圖，并將這些縮略圖保存到特定文件夾中。

這我的機器上，用這一程序處理 6000 張圖片需要花費 27.9 秒。

如果我們使用 map 函數來代替 for 循環：

import os 
import PIL 

from multiprocessing import Pool 
from PIL import Image

SIZE = (75,75)
SAVE_DIRECTORY = 'thumbs'

def get_image_paths(folder):
  return (os.path.join(folder, f) 
      for f in os.listdir(folder) 
      if 'jpeg' in f)

def create_thumbnail(filename): 
  im = Image.open(filename)
  im.thumbnail(SIZE, Image.ANTIALIAS)
  base, fname = os.path.split(filename) 
  save_path = os.path.join(base, SAVE_DIRECTORY, fname)
  im.save(save_path)

if __name__ == '__main__':
  folder = os.path.abspath(
    '11_18_2013_R000_IQM_Big_Sur_Mon__e10d1958e7b766c3e840')
  os.mkdir(os.path.join(folder, SAVE_DIRECTORY))

  images = get_image_paths(folder)

  pool = Pool()
  pool.map(creat_thumbnail, images)
  pool.close()
  pool.join()

5.6 秒！

雖然只改動了幾行代碼，我們卻明顯提高了程序的執行速度。在生產環境中，我們可以為 CPU 密集型任務和 IO 密集型任務分別選擇多進程和多線程庫來進一步提高執行速度——這也是解決死鎖問題的良方。此外，由于 map 函數并不支持手動線程管理，反而使得相關的 debug 工作也變得異常簡單。

到這里，我們就實現了（基本）通過一行 Python 實現并行化。

原文標題：一行 Python 代碼實現并行

文章出處：【微信公眾號：馬哥Linux運維】歡迎添加關注！文章轉載請注明出處。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

代碼

代碼

+關注

關注
30

文章
4825

瀏覽量
69044
MAP

MAP

+關注

關注
0

文章
49

瀏覽量
15179
python

python

+關注

關注
56

文章
4807

瀏覽量
85037
并行化

并行化

+關注

關注
0

文章
9

瀏覽量
2864

原文標題：一行 Python 代碼實現并行

文章出處：【微信號：magedu-Linux，微信公眾號：馬哥Linux運維】歡迎添加關注！文章轉載請注明出處。

python初學--用map規范英文名字

進入第3天學習，接觸到第一個練習，利用 map() 函數，把用戶輸入的不規范的英文名字，變為首字母大寫，其他小寫的規范名字。輸入： ['adam', 'LISA', 'barT'] ，輸出

發表于 12-25 14:47

Python中的并行性和并發性分析

理，異步編程，并發和并行性。我們使用python的多處理模塊來實現并行性，而Python中的并發是通過線程和異步IO模塊來

發表于 08-21 17:45

python高階函數

python高階函數1. map 函數map 函數，它接收兩個參數，第一個參數是一個

發表于 03-02 16:47

Python的三種函數應用及代碼

布爾值。舉例如下： 2.map()函數的用法 map(func,seq)函數包含兩個參數，map()適用于列表seq所有的元素，它返回一個新

發表于 11-15 13:07 ?1369次閱讀

<b class='flag-5'>Python</b>的三種<b class='flag-5'>函數</b>應用及代碼

python函數概念理解

函數是可以實現一些特定功能的小方法或是小程序。在Python中有很多內建函數，當然隨著學習的深入，我們可以學會創建對自己有用的

發表于 01-18 17:37 ?2354次閱讀

Python的函數文件與模塊的程序說明

“探索Python ” 這一系列的前幾篇文章已為Python 編程新手介紹了幾方面的主題，包括變量、容器對象和復合語句。本文以這些概念為基礎，構造一個完整的Python 程序。引入了

發表于 09-10 16:06 ?2次下載

<b class='flag-5'>Python</b>的<b class='flag-5'>函數</b>文件與模塊的<b class='flag-5'>程序</b>說明

Python5個內建高階函數的使用

map函數的基本語法是map(func, seq)，其含義指的是：對后面可迭代序列中的每個元素執行前面的函數func的功能，最終獲取到一個新的序列。注意：

發表于 02-04 16:06 ?1462次閱讀

<b class='flag-5'>Python</b>5個內建高階<b class='flag-5'>函數</b>的使用

python的常用函數有哪些

map（）是 Python 內置的高階函數，它接收一個函數 f 和一個list ，并通過把函數 f 依次作用在list 的每個元素上，得到

發表于 02-25 11:52 ?9次下載

<b class='flag-5'>python</b>的常用<b class='flag-5'>函數</b>有哪些

Python字符數統計函數程序

Python字符數統計函數程序免費下載。

發表于 05-25 14:35 ?19次下載

像Arduino里的MAP函數，應用在STM32單片機上。

像Arduino里的MAP函數，應用在STM32單片機上。簡介：如果大家玩過Arduino，想必知道MAP();函數了，這是一個很好用的映射函數

發表于 12-24 19:29 ?0次下載

python高階函數詳解

python高階函數 1. map 函數 map 函數，它接收兩個參數，第一個參數是一個

發表于 03-02 16:47 ?1328次閱讀

一行Python代碼如何實現并行化

Python 在程序并行化方面多少有些聲名狼藉。撇開技術上的問題，例如線程的實現和 GIL，我覺得錯誤的教學指導才是主要問題。

發表于 04-19 17:09 ?1072次閱讀

一行Python代碼實現并行

Python 在程序并行化方面多少有些聲名狼藉。撇開技術上的問題，例如線程的實現和 GIL，我覺得錯誤的教學指導才是主要問題。常見的經典

發表于 04-06 11:00 ?609次閱讀

Python函數詳解

在 Python 中，函數是一段可重復使用的代碼塊，可以接受一些輸入（即函數參數），并根據輸入執行某些操作。函數可以幫助我們組織代碼、減少重復代碼、

發表于 04-19 15:47 ?709次閱讀

python調用math函數的方法

中。本文將詳細介紹math模塊中的各種數學函數的調用方法，包括函數的功能、參數的使用和返回值的含義等方面，以幫助讀者更好地理解和應用這些函數。一、導入math模塊要使用math模塊中的函數

發表于 11-22 11:01 ?3160次閱讀

吴忠躺衫网络科技有限公司

搜索歷史

使用map函數實現Python程序并行化