Results 1 - 3 of 3
The Lemur Project 是一個開發搜尋引擎及文字分析的計畫,該計畫所開發的軟體能用在協助資訊檢索,與語言模型的學習與研究上。此計畫由美國麻州大學阿默斯特分校以及卡內基美隆大學合作。主要的專案內容分成四大部份:搜尋引擎、文字分析工具、網頁工具列,以及測試資料。搜尋引擎可在多種原始資料格式間進行索引跟比對,文字分析工具可用來進行文字檢索的實驗,網頁工具列能協助分析使用者習慣,包括網路上搜尋瀏覽的過程以及其他定性行為,最後,該專案也提供近十億筆的網頁測試資料,供有興趣的研究者進行資訊檢索模式方面的分析與比較。此一專案從研究與應用面來看,可轉植在資料探勘與人工智慧自動模式建立的專案上,再者,現階段的Lemur Project採拘束性質最低的BSD授權條款釋出,亦可容許使用者對其進行任何目的之改寫與加值運用。
Weka (Waikato Environment for Knowledge Analysis)是用於資料分析、預測模型的機器學習演算法套件,包含資料前處理、分類、迴歸、叢集、關聯規則及視覺化的工具,提供圖形介面供使用者方 便操作,也適合用來開發新的機器學習規則。其由紐西蘭懷卡托大學(The University of Waikato)從1993年開始開發,在國內外學術界,在數值分析、資料探勘等領域的論文,不乏以Weka為基礎來進行分析數據模型方面的實驗。此專案 以 GNU GPL 授權釋出,從1993年至今已穩定開發至第3版,於其官方網頁上各種參與資料、建置文件,以及疑難處理的相關支援資訊豐富。相當適合被加值運用在國內與資 料分析與機器學習方面有關的研究專案,以解決此一領域日益繁重的資料量爆炸與機器系統分工化方面的需求。
Apache Lucene 是一個高效能,全功能,跨平台的文字搜尋引擎函式庫,完全以Java寫成,適用於全文搜尋方面各面向的應用需求。Lucene 原本由 Doug Cutting 在1999年寫成,其後在2001年加入Apache Software Foundation,並於2005年成為 Apache Software Foundation轄下的重要專案之一。現在該專案包含的元件除了Apache Lucene Core之外,還有以Apache Lucene Core為基礎的 Apache Solr 搜尋伺服器。由於Web 2.0的網路共工模式興起,全球的使用者日積月累地在網路上製造了大量的資料,而如何搜尋、處理這些相關資料,也就成為了資料探勘方面重要的技術,並且在應用面,也可以與各資料儲存網站配合,搭建出新興的資訊服務文創產業。Apache Lucene提供資訊搜索與彙整方面的解決方案,所以現階段已被許多具有龐大資料庫的知名網站採用,例如Twitter、LinkedIn;並且在學術研究方面,亦不乏採用Apache Lucene做為資料探勘研究平台的專案。就如同Apache Software Foundation其他專案一般,Apache Lucene以Apache License 2.0授權釋出,任何人皆可任意使用,並以此作為基礎續行開發。