thảo luận Những chia sẻ, thảo luận về Xử lý ngôn ngữ tự nhiên (NLP)

Hi bạn,

Bạn chuyển xuống python 3.8 hoặc 3.6 nhé. Nếu được thì bạn chạy thử trên WSL để xem nó xảy ra lỗi giống trên windows k? Cũng sử dụng python ver 3.8 hoặc 3.6 nha bạn.

Lý do: theo kinh nghiệm của mình thì thường những phiên bản chẵn của python sẽ ổn định với các task liên quan đến việc sử dụng tensorflow hoặc pytorch
Mình vừa chạy lại được r

via theNEXTvoz for iPhone
 
Hi bạn,

Bạn chuyển xuống python 3.8 hoặc 3.6 nhé. Nếu được thì bạn chạy thử trên WSL để xem nó xảy ra lỗi giống trên windows k? Cũng sử dụng python ver 3.8 hoặc 3.6 nha bạn.

Lý do: theo kinh nghiệm của mình thì thường những phiên bản chẵn của python sẽ ổn định với các task liên quan đến việc sử dụng tensorflow hoặc pytorch
Mình vừa chạy thấy máy nóng quá liệu có hư máy không thím.
Mình Sài MacBook Pro 17
H915prD.jpg


via theNEXTvoz for iPhone
 
Mình vừa chạy thấy máy nóng quá liệu có hư máy không thím.
Mình Sài MacBook Pro 17
H915prD.jpg


via theNEXTvoz for iPhone
Trc h mình train trên colab nên k biết train trên mac thì thế nào :D mà thường train thì xài GPU cho nhanh nhỉ, bạn train chay như v thì lâu lắm
 
ý mình là chạy GPU trên Mac thì kêu to lắm.
Đang phân vân nên mua Mac hay build case đây

Mình nghĩ thì nên build case. Cơ mà trải nghiệm của mình thì khá tốn điện, sau đó thì mình đẩy lên gg cloud hoặc colab pro train (treo máy thì lấy cái lap ghẻ nên không lo về tiền điện nữa :D), tất nhiên nhu cầu vẫn đáp ứng được trong phạm vi nghiên cứu, còn về mặt công nghiệp thì mình k chắc lắm
 
Mình nghĩ thì nên build case. Cơ mà trải nghiệm của mình thì khá tốn điện, sau đó thì mình đẩy lên gg cloud hoặc colab pro train (treo máy thì lấy cái lap ghẻ nên không lo về tiền điện nữa :D), tất nhiên nhu cầu vẫn đáp ứng được trong phạm vi nghiên cứu, còn về mặt công nghiệp thì mình k chắc lắm
Colab pro có bị mất session 30p không nhỉ :D :D .
Mà nó ngon GPu thôi chứ RAM với CPU ý ẹ quá không đủ để mình xử lý task dữ liệu to
 
Colab pro có bị mất session 30p không nhỉ :D :D .
Mà nó ngon GPu thôi chứ RAM với CPU ý ẹ quá không đủ để mình xử lý task dữ liệu to
Không nha, colab pro cho treo tới 24h, cơ mà thực tế thì treo tới 20 tiếng là nó ngắt r, mà xài quá resource là nó đóng băng 12 tiếng luôn. RAM thì mình k chắc lắm, nó có high-ram, hỗ trợ tận 32GB, với mình thì ok r, trc h xử lý text thôi thì cũng k cần nhiều tới v
 
#WDIDT #2: Cập nhật tuần rồi của mình vừa qua thì chỉ mới đọc đc sơ sơ 1 survey paper thôi, do tình hình chống dịch căng thẳng quá =((. Cơ mà về crawler thì mình đã hoàn thành rồi :sexy_girl:

Tình hình crawler như sau: Mất một thời gian suy nghĩ đi suy nghĩ lại thì mình tạm chọn mục f17 làm data. Và cũng có thể xem là nguồn data dồi dào nhất trong forum voz này. Tuy nhiên, cũng có 1 số hạn chế từ nguồn dữ liệu này, cái này chắc là mình sẽ nói sau khi đến phần phân tích dữ liệu.

Hy vọng được mấy bạn làm bên mảng phân tích data hỗ trợ :beauty:

Cuối cùng, mong cán bộ bỏ qua hành vi này :pudency: nếu cán bộ ưng thì sau khi hoàn thành sản phẩm, mình sẽ trao lại toàn bộ source code mà mình làm nhé.

P/S: Chi tiết về crawler thì mình dùng thư viện scrapy và chi tiết spider mình đính kèm sau đây:

Python:
import scrapy

class VozSpider(scrapy.Spider):
    name = 'voz'
    start_urls = ['https://voz.vn/f/chuyen-tro-linh-tinh.17/']
    custom_settings = { 'FEED_URI': "voz_%(time)s.json",
                       'FEED_FORMAT': 'json',
                       'FEED_EXPORT_ENCODING': 'utf-8'}

    def parse(self, response):
        print("Current URL: {}".format(response.url))

        post_urls = response.xpath('//div[@class="structItem-title"]//a/@href').extract()
        for url_item in post_urls:
            yield scrapy.Request('https://voz.vn' + url_item, callback=self.content_parse)

        next_page = response.xpath('//a[contains(@class, "pageNav-jump--next")]//@href').get()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

    def content_parse(self, response):
        yield {
                'url': response.url,
                'title': response.xpath('//h1[contains(@class, "p-title-value")]/text()').get().strip(),
                'text': '[_SEP_]'.join(response.xpath('//article[@class="message-body js-selectToQuote"]//div[contains(@class, "bbWrapper")]/text()[not(ancestor::blockquote)]').extract()).strip(),
            }

        next_page = response.xpath('//a[contains(@class, "pageNav-jump--next")]//@href').get()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.content_parse)
Cho em hỏi về cào dữ liệu trên web hay các social web, bác có kinh nghiệm nào làm công việc trở lên thoải mái hơn ko ?
 
Cho em hỏi về cào dữ liệu trên web hay các social web, bác có kinh nghiệm nào làm công việc trở lên thoải mái hơn ko ?
Chào bác,

Theo kinh nghiệm của mình thì cái nào mà thoải mái sử dụng thì chất lượng khó hợp nhu cầu của mình lắm bác à
 
về việc làm của NLP ở Việt Nam như thế nào ạ? Có khó khăn trong quá trình tìm việc không? Và cơ hội thăng tiến, tiến sâu về lĩnh vực này thế nào? Em đang muốn theo lĩnh vực này dài lâu và có nhiều chỗ để mình tiến xa.
 
Hiện tại ở Việt Nam về NLP thì nên app vào công ty nào hả các bác. Em chắc tầm Fresher/Junior, kinh nghiệm đa phần liên quan đến domain-specific LLM, tham gia từ data processing, build pipeline, training. Một chút kinh nghiệm GCP (không được trực tiếp setup, chỉ chuẩn bị code cho mấy anh Senior train). Em thì tự tin trình cao English (IELTS 7.5), có 1 chút vốn liếng tiếng Nhật (N2), mong được các bác tư vấn thêm ạ.
 
Back
Top