結果 1 - 2 共 2
The Lemur Project 是一個開發搜尋引擎及文字分析的計畫,該計畫所開發的軟體能用在協助資訊檢索,與語言模型的學習與研究上。此計畫由美國麻州大學阿默斯特分校以及卡內基美隆大學合作。主要的專案內容分成四大部份:搜尋引擎、文字分析工具、網頁工具列,以及測試資料。搜尋引擎可在多種原始資料格式間進行索引跟比對,文字分析工具可用來進行文字檢索的實驗,網頁工具列能協助分析使用者習慣,包括網路上搜尋瀏覽的過程以及其他定性行為,最後,該專案也提供近十億筆的網頁測試資料,供有興趣的研究者進行資訊檢索模式方面的分析與比較。此一專案從研究與應用面來看,可轉植在資料探勘與人工智慧自動模式建立的專案上,再者,現階段的Lemur Project採拘束性質最低的BSD授權條款釋出,亦可容許使用者對其進行任何目的之改寫與加值運用。
Apache Lucene 是一個高效能,全功能,跨平台的文字搜尋引擎函式庫,完全以Java寫成,適用於全文搜尋方面各面向的應用需求。Lucene 原本由 Doug Cutting 在1999年寫成,其後在2001年加入Apache Software Foundation,並於2005年成為 Apache Software Foundation轄下的重要專案之一。現在該專案包含的元件除了Apache Lucene Core之外,還有以Apache Lucene Core為基礎的 Apache Solr 搜尋伺服器。由於Web 2.0的網路共工模式興起,全球的使用者日積月累地在網路上製造了大量的資料,而如何搜尋、處理這些相關資料,也就成為了資料探勘方面重要的技術,並且在應用面,也可以與各資料儲存網站配合,搭建出新興的資訊服務文創產業。Apache Lucene提供資訊搜索與彙整方面的解決方案,所以現階段已被許多具有龐大資料庫的知名網站採用,例如Twitter、LinkedIn;並且在學術研究方面,亦不乏採用Apache Lucene做為資料探勘研究平台的專案。就如同Apache Software Foundation其他專案一般,Apache Lucene以Apache License 2.0授權釋出,任何人皆可任意使用,並以此作為基礎續行開發。