Valky99
Senior Member
Code của mình đây bác
Python:import phonlp phonlp.download(save_dir='./pretrained_phonlp') model = phonlp.load(save_dir='./pretrained_phonlp') data['aspect'] = data['content'].apply(model.annotate).apply(lambda x: [y for y in x[0] if x[1] == 'N'])
Kết quả mình muốn sẽ ra như vầy
View attachment 659539
Do kết quả trên mình đang sử dụng thư viện underthesea để trích xuất và mình thấy kết quả không chính xác lắm do không nhận diện được các từ ghép sau khi tokenize, nên mới thực nghiệm thử thư viện PhoNLP mà đang bị stuck ở khúc trên. Nhờ bác xem hộ với nhé.
Hi bác,
Gợi ý đây nhé
Python:
test = model.annotate(text="Tôi đang làm_việc tại VinAI . Tôi đang đi học")
out = [w for w, t in zip(test[0][0],test[1][0]) if 'V' in t]
print(out)
# ['làm_việc', 'đi', 'học']