登入  |  English
感謝您對「自由軟體鑄造場」的支持與愛護,十多年來「自由軟體鑄造場」受中央研究院支持,並在資訊科學研究所以及資訊科技創新研究中心執行,現已完成階段性的任務。 原網站預計持續維運至 2021年底,網站內容基本上不會再更動。本網站由 Denny Huang 備份封存。
也紀念我們永遠的朋友 李士傑先生(Shih-Chieh Ilya Li)。

MySpace 釋出大規模資料處理框架 Qizmt

MySpace 宣佈釋出一項新技術,由該公司內部自行研發的分散式運算框架 Qizmt (編按:Qizmt 本身是採用 GPL v3. 開放源碼的方式釋出),基於 MapReduce 框架,用來進行大規模資料的資料探勘,並在 MySpace 的社群網路上產生朋友推薦資訊。

Qizmt 以 MapReduce 分散式處理框架為基礎,該框架是 Google 搜尋索引架構的核心部份。然而,相對於大多數 MapReduce 技術採用 Linux 機器, Qizmt 選擇在 Microsoft Windows 伺服器構成的大型叢集上執行。由 MySpace 的 Data Mining 團隊所開發,Qizmt 可以應用在需要處理大量資料,如推薦協同過濾與分析等作業上。

MySpace 營運長 Mike Jones 表示,Qizmt 是一套強大的 MapReduce 環境,讓 MySpace 使用者推薦引擎更聰明、更快且更可靠。目前 Qizmt 被應用在 “People You May Know” 功能上,不久的將來更可拓展到其他領域的使用者推薦上。

MapReduce 是一套程式設計模型,與處理和產生大量資料集之用的相關實作。使用者指定 map 函式,處理一對對鍵/值 (key/value),並產生中介鍵/值集合。使用者指定的 reduce 函式,則把鍵相同的中介值加以合併。

Java 架構師與分散式系統專家 Eugene Ciurana 表示,索引大量未經結構化資料是件困難的工作。對此,MapReduce 提供了簡潔的解決方案。

MySpace 資料副總裁 Hala Al-Adwan 說,MySpace 希望開發者社群能從 Qizmt 中獲益,並加以改進與延伸。Al-Adwan 表示,MySpace 希望能將該技術的運用延伸到其他類型的推薦上,如書籍或電影的推薦,或購物上。Al-Adwan 並且將在 Computerworld 的 Business Intelligence Perspectives 會議上,連同 Mike Jones 一起展示 Qizmt。

Al-Adwan 指出,他們打算觀察他們的整個資料集,並開始探索社群分析的領域。

Jones 表示,Qizmt 的開發採用了微軟的技術,特別是 C# 語言。 Jones 指出,Qizmt 獨特之處在於使用 C#.NET 特別為 Windows 平台而開發,藉次將 .NET 環境的快速開發特色延伸大規模資料處理的領域,並且讓 .NET 開發者輕鬆地運用現有技巧撰寫 MapReduce 程式。除了易於使用,Qizmt 根據他們內部的測試,處理速度可與最主要的 MapReduce 開放源碼專案相匹敵。

Al-Adwan 表示,在開發 Qizmt 之前,MySpace 為了即時處理大規模資料尋找可用技術,卻找不到適於該公司需求以及其 .Net 開發平台的選擇。Jones 說,許多公司在其商業智慧 (business intelligence,BI) 平台上採用了微軟技術,Qizmt 對這些平台而言可說是自然的延伸。當企業面臨持續的資料成長與深度分析需求時,Qizmt 將成為 BI 資料處理與資料探勘兩方面不可或缺的一部份。


相關網址:
1.MySpace 內部資料分析技術開放源碼
2.MySpace 資料處理技術開放源碼
3.MySpace 釋出開放源碼分散式運算平台 Qizmt




自由軟體鑄造場電子報 : 第 135 期 FDL 與創用 CC 授權條款相容性問題初探:從維基百科談起

分類: 源碼新聞