備忘錄_20160105(定位)
修改
回首頁
程式 2019-06-21 17:29:06 1561109346 100
文字處理程式
文字處理程式
https://medium.com/@justinboylantoomey/fast-text-extraction-with-python-and-tika-41ac34b0fe61
若有其他狀況,也可以在 MS-DOS 模式下,測試 set PYTHONIOENCODING=UTF-8
針對中文 *.py 讀取中文路徑的檔案中包含中文
請用 python 2.7.16(64bit) 而非 python 3.7.3(32bit)
然後 pip install tika
再參考底下原始碼,應該可行~~~
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
from tika import parser
file = u'D:/temp/20190518_小啟論語/20190619_今年課表/20190619_108國中課表說明.doc'
# Parse data from file
file_data = parser.from_file(file)
# Get files text content
text = file_data['content']
print(text)