thảo luận Những chia sẻ, thảo luận về Xử lý ngôn ngữ tự nhiên (NLP)

trucdp · Oct 8, 2021

Valky99 said:
Hi bạn,

Bạn chuyển xuống python 3.8 hoặc 3.6 nhé. Nếu được thì bạn chạy thử trên WSL để xem nó xảy ra lỗi giống trên windows k? Cũng sử dụng python ver 3.8 hoặc 3.6 nha bạn.

Lý do: theo kinh nghiệm của mình thì thường những phiên bản chẵn của python sẽ ổn định với các task liên quan đến việc sử dụng tensorflow hoặc pytorch

Mình vừa chạy lại được r

via theNEXTvoz for iPhone

trucdp · Oct 8, 2021

Valky99 said:
Hi bạn,

Bạn chuyển xuống python 3.8 hoặc 3.6 nhé. Nếu được thì bạn chạy thử trên WSL để xem nó xảy ra lỗi giống trên windows k? Cũng sử dụng python ver 3.8 hoặc 3.6 nha bạn.

Lý do: theo kinh nghiệm của mình thì thường những phiên bản chẵn của python sẽ ổn định với các task liên quan đến việc sử dụng tensorflow hoặc pytorch

Mình vừa chạy thấy máy nóng quá liệu có hư máy không thím.
Mình Sài MacBook Pro 17

via theNEXTvoz for iPhone

Valky99 · Oct 8, 2021

trucdp said:
Mình vừa chạy thấy máy nóng quá liệu có hư máy không thím.
Mình Sài MacBook Pro 17

via theNEXTvoz for iPhone

Trc h mình train trên colab nên k biết train trên mac thì thế nào

mà thường train thì xài GPU cho nhanh nhỉ, bạn train chay như v thì lâu lắm

trucdp · Oct 8, 2021

Valky99 said:
Trc h mình train trên colab nên k biết train trên mac thì thế nào mà thường train thì xài GPU cho nhanh nhỉ, bạn train chay như v thì lâu lắm

Setup GPU luôn r á thím

via theNEXTvoz for iPhone

Valky99 · Oct 8, 2021

trucdp said:
Setup GPU luôn r á thím

via theNEXTvoz for iPhone

V thì bạn cứ thoải mái thôi. Chạy mấy cái mô hình này thì nóng máy là bình thường mà

khoaikho · Oct 13, 2021

chạy trên colab hoặc kaggle thôi, chứ chạy trên lap thì cái quạt kêu đã luôn :byebye:

trucdp · Oct 13, 2021

khoaikho said:
chạy trên colab hoặc kaggle thôi, chứ chạy trên lap thì cái quạt kêu đã luôn

Test rồi thím
Không GPU thì 2h
Có GPU thì 25mins

khoaikho · Oct 13, 2021

trucdp said:
Test rồi thím
Không GPU thì 2h
Có GPU thì 25mins

ý mình là chạy GPU trên Mac thì kêu to lắm.
Đang phân vân nên mua Mac hay build case đây

Valky99 · Oct 14, 2021

khoaikho said:
ý mình là chạy GPU trên Mac thì kêu to lắm.
Đang phân vân nên mua Mac hay build case đây

Mình nghĩ thì nên build case. Cơ mà trải nghiệm của mình thì khá tốn điện, sau đó thì mình đẩy lên gg cloud hoặc colab pro train (treo máy thì lấy cái lap ghẻ nên không lo về tiền điện nữa

), tất nhiên nhu cầu vẫn đáp ứng được trong phạm vi nghiên cứu, còn về mặt công nghiệp thì mình k chắc lắm

khoaikho · Oct 14, 2021

Valky99 said:
Mình nghĩ thì nên build case. Cơ mà trải nghiệm của mình thì khá tốn điện, sau đó thì mình đẩy lên gg cloud hoặc colab pro train (treo máy thì lấy cái lap ghẻ nên không lo về tiền điện nữa ), tất nhiên nhu cầu vẫn đáp ứng được trong phạm vi nghiên cứu, còn về mặt công nghiệp thì mình k chắc lắm

Colab pro có bị mất session 30p không nhỉ

.
Mà nó ngon GPu thôi chứ RAM với CPU ý ẹ quá không đủ để mình xử lý task dữ liệu to

Valky99 · Oct 14, 2021

khoaikho said:
Colab pro có bị mất session 30p không nhỉ .
Mà nó ngon GPu thôi chứ RAM với CPU ý ẹ quá không đủ để mình xử lý task dữ liệu to

Không nha, colab pro cho treo tới 24h, cơ mà thực tế thì treo tới 20 tiếng là nó ngắt r, mà xài quá resource là nó đóng băng 12 tiếng luôn. RAM thì mình k chắc lắm, nó có high-ram, hỗ trợ tận 32GB, với mình thì ok r, trc h xử lý text thôi thì cũng k cần nhiều tới v

Totoro.08 · Apr 15, 2022

Valky99 said:
#WDIDT #2: Cập nhật tuần rồi của mình vừa qua thì chỉ mới đọc đc sơ sơ 1 survey paper thôi, do tình hình chống dịch căng thẳng quá . Cơ mà về crawler thì mình đã hoàn thành rồi

Tình hình crawler như sau: Mất một thời gian suy nghĩ đi suy nghĩ lại thì mình tạm chọn mục f17 làm data. Và cũng có thể xem là nguồn data dồi dào nhất trong forum voz này. Tuy nhiên, cũng có 1 số hạn chế từ nguồn dữ liệu này, cái này chắc là mình sẽ nói sau khi đến phần phân tích dữ liệu.

Hy vọng được mấy bạn làm bên mảng phân tích data hỗ trợ

Cuối cùng, mong cán bộ bỏ qua hành vi này nếu cán bộ ưng thì sau khi hoàn thành sản phẩm, mình sẽ trao lại toàn bộ source code mà mình làm nhé.

P/S: Chi tiết về crawler thì mình dùng thư viện scrapy và chi tiết spider mình đính kèm sau đây:

Python:

import scrapy class VozSpider(scrapy.Spider): name = 'voz' start_urls = ['https://voz.vn/f/chuyen-tro-linh-tinh.17/'] custom_settings = { 'FEED_URI': "voz_%(time)s.json", 'FEED_FORMAT': 'json', 'FEED_EXPORT_ENCODING': 'utf-8'} def parse(self, response): print("Current URL: {}".format(response.url)) post_urls = response.xpath('//div[@class="structItem-title"]//a/@href').extract() for url_item in post_urls: yield scrapy.Request('https://voz.vn' + url_item, callback=self.content_parse) next_page = response.xpath('//a[contains(@class, "pageNav-jump--next")]//@href').get() if next_page is not None: next_page = response.urljoin(next_page) yield scrapy.Request(next_page, callback=self.parse) def content_parse(self, response): yield { 'url': response.url, 'title': response.xpath('//h1[contains(@class, "p-title-value")]/text()').get().strip(), 'text': '[_SEP_]'.join(response.xpath('//article[@class="message-body js-selectToQuote"]//div[contains(@class, "bbWrapper")]/text()[not(ancestor::blockquote)]').extract()).strip(), } next_page = response.xpath('//a[contains(@class, "pageNav-jump--next")]//@href').get() if next_page is not None: next_page = response.urljoin(next_page) yield scrapy.Request(next_page, callback=self.content_parse)

Cho em hỏi về cào dữ liệu trên web hay các social web, bác có kinh nghiệm nào làm công việc trở lên thoải mái hơn ko ?

Valky99 · Apr 16, 2022

Totoro.08 said:
Cho em hỏi về cào dữ liệu trên web hay các social web, bác có kinh nghiệm nào làm công việc trở lên thoải mái hơn ko ?

Chào bác,

Theo kinh nghiệm của mình thì cái nào mà thoải mái sử dụng thì chất lượng khó hợp nhu cầu của mình lắm bác à

Truongsinblack · Dec 17, 2023

về việc làm của NLP ở Việt Nam như thế nào ạ? Có khó khăn trong quá trình tìm việc không? Và cơ hội thăng tiến, tiến sâu về lĩnh vực này thế nào? Em đang muốn theo lĩnh vực này dài lâu và có nhiều chỗ để mình tiến xa.

hunggnuh · Dec 17, 2023

Hiện tại ở Việt Nam về NLP thì nên app vào công ty nào hả các bác. Em chắc tầm Fresher/Junior, kinh nghiệm đa phần liên quan đến domain-specific LLM, tham gia từ data processing, build pipeline, training. Một chút kinh nghiệm GCP (không được trực tiếp setup, chỉ chuẩn bị code cho mấy anh Senior train). Em thì tự tin trình cao English (IELTS 7.5), có 1 chút vốn liếng tiếng Nhật (N2), mong được các bác tư vấn thêm ạ.

thảo luận Những chia sẻ, thảo luận về Xử lý ngôn ngữ tự nhiên (NLP)

trucdp

Junior Member

trucdp

Junior Member

Valky99

Senior Member

trucdp

Junior Member

Valky99

Senior Member

khoaikho

Senior Member

trucdp

Junior Member

khoaikho

Senior Member

Valky99

Senior Member

khoaikho

Senior Member

Valky99

Senior Member

Totoro.08

Senior Member

Valky99

Senior Member

Truongsinblack

Junior Member

hunggnuh

Junior Member

Similar threads

Share this page