備忘錄_20160105(定位) 修改 回首頁

程式 2019-06-21 17:29:06 1561109346 100
文字處理程式

文字處理程式
https://medium.com/@justinboylantoomey/fast-text-extraction-with-python-and-tika-41ac34b0fe61

若有其他狀況,也可以在 MS-DOS 模式下,測試 set PYTHONIOENCODING=UTF-8

針對中文 *.py 讀取中文路徑的檔案中包含中文
請用 python 2.7.16(64bit) 而非 python 3.7.3(32bit)
然後 pip install tika
再參考底下原始碼,應該可行~~~

# -*- coding: utf-8 -*-

import sys
reload(sys)  
sys.setdefaultencoding('utf-8')

from tika import parser

file = u'D:/temp/20190518_小啟論語/20190619_今年課表/20190619_108國中課表說明.doc'
# Parse data from file
file_data = parser.from_file(file)
# Get files text content
text = file_data['content']
print(text)