All Activity
- Earlier
-
tmnmh joined the community
-
Ronaldker joined the community
-
TgXpert joined the community
-
Micahrom joined the community
-
Chúc mừng năm mới 499 ae, Hôm nay là mồng 1 đầu năm, mình khai bút đầu năm tiếp. Ví dụ về định kiến trong khi test thử 1 LLMs: Ở đây có 2 vấn đề: 1. Định kiến: tắm bùn là chỉ có phụ nữ, mặc dù khi hỏi không đề cập về giới tính. 2. Chốt hạ bằng một câu tiếng Đức, tại sao lại tiếng Đức? Có phải chăng tài khoản này có liên quan đến gì đến nước Đức?
-
Hi 499ae, Trong tương lai, tôi nghĩ sớm hay muộn, ngành du lịch sẽ ứng dụng AI Chatbot để phản hồi các hỏi đáp, yêu cầu của khách hàng. Hãy thử tưởng tượng, khách sạn của mình có một bạn AI ChatBot về F&B chuyên nhận order phòng giúp giảm tải cho các số hot line liên hệ đặt dịch vụ, hoặc một AI Income Auditor Bot có thể hỗ trợ phòng Kế Toán giảm tải các kiểm tra, đối chiếu liên quan từ dữ liệu đầu vào là các biểu mãu, báo cáo.... như vậy năng suất lao động có thể tăng lên đáng kể so với sức "CƠM". Để làm được điều này, đầu tiên là các AI Chatbot này sẽ phải "hiểu được" câu chuyện nó đang trao đổi, trong đó "Ngôn Ngữ Lớn - Large Language Model - LLM) là thành phần chính không thể thiếu. Vậy, LLM là gì? Nó hoạt động ra sao? Để tìm hiểu mô hình ngôn ngữ lớn là gì chúng ta sẽ điểm qua các nội dung từ bài viết: Large language models, explained with a minimum of math and jargon Khi ChatGPT được giới thiệu vào mùa thu năm ngoái, nó đã gây chấn động trong ngành công nghệ và cả thế giới. Trước đó, các nhà nghiên cứu học máy đã thử nghiệm với các mô hình ngôn ngữ lớn (LLMs) trong vài năm, nhưng công chúng chưa chú ý nhiều và không nhận ra sức mạnh của chúng. Ngày nay, hầu như ai cũng đã nghe về LLMs, và hàng chục triệu người đã thử chúng. Tuy nhiên, không nhiều người thực sự hiểu cách chúng hoạt động. Nếu bạn biết một chút về chủ đề này, có lẽ bạn đã nghe rằng LLMs được "huấn luyện để dự đoán từ tiếp theo" và cần một lượng lớn dữ liệu văn bản để làm điều này. Nhưng thường giải thích dừng lại ở đó, còn chi tiết về cách chúng dự đoán từ tiếp theo vẫn được coi là bí ẩn. Nguyên nhân một phần là do cách phát triển hệ thống này rất khác thường. Phần mềm truyền thống được lập trình bởi con người với các hướng dẫn cụ thể, từng bước (if... then..else). Trong khi đó, ChatGPT được xây dựng trên mạng nơ-ron được huấn luyện với hàng tỷ từ ngôn ngữ thông thường. Do đó, không ai trên thế giới thực sự hiểu hoàn toàn cơ chế bên trong của LLMs. Các nhà nghiên cứu vẫn đang cố gắng hiểu rõ hơn, nhưng đây là một quá trình chậm, có thể mất nhiều năm hoặc thậm chí nhiều thập kỷ. Dù vậy, cũng có rất nhiều chuyên gia đã hiểu được nhiều điều về cách hoạt động của các hệ thống này. Mục tiêu của bài viết này là làm cho kiến thức đó trở nên dễ hiểu với đa số mọi người, tránh dùng thuật ngữ kỹ thuật hoặc toán học phức tạp. Chúng tôi (tác giả bài báo, không phải là OP 😁)sẽ bắt đầu với việc giải thích về vector từ, cách thức đáng ngạc nhiên mà các mô hình ngôn ngữ này biểu diễn và suy luận về ngôn ngữ. Sau đó, chúng ta sẽ tìm hiểu sâu về transformer, nền tảng cơ bản cho các hệ thống như ChatGPT. Cuối cùng, chúng tôi sẽ giải thích cách các mô hình này được huấn luyện và tại sao hiệu suất tốt lại cần một lượng dữ liệu khổng lồ như vậy. Để hiểu cách các mô hình ngôn ngữ hoạt động, trước tiên cần hiểu cách chúng đại diện cho từ ngữ. Con người biểu diễn từ ngữ bằng các chuỗi ký tự, như C-A-T cho CAT. Các mô hình ngôn ngữ sử dụng một danh sách dài các con số gọi là vector từ. Ví dụ, đây là MỘT cách để biểu diễn từ CAT [0.0045, -0.0023, 0.0098, -0.0342, 0.0156, …] Xem đầy đủ từ biểu diễn 300 vector của CAT tại: Semantically related words for "cat_NOUN" Tại sao lại sử dụng ký hiệu phức tạp như vậy? Đây là một ví dụ tương tự. Chẳng hạn, ta có các thành phố với tọa độ như sau: Hà Nội nằm ở [21.0285, 105.8542] TP.HCM nằm ở [10.8231, 106.6297] Vientiane nằm ở [17.9757, 102.6331] Phnom Penh nằm ở [11.5564, 104.9282] Điều này hữu ích để lý giải về mối quan hệ không gian. Bạn có thể thấy TP.HCM gần Phnom Penh vì 10.8231 gần với 11.5564 và 106.6297 gần với 104.9282. Tương tự, Hà Nội gần với Vientiane hơn. Nhưng Hà Nội thì xa TP.HCM. Các mô hình ngôn ngữ cũng áp dụng cách tiếp cận tương tự: mỗi vector từ đại diện cho một điểm trong "không gian từ" tưởng tượng, và những từ có ý nghĩa tương tự nhau được đặt gần nhau hơn. Từ này quá phức tạp để biểu diễn chỉ trong hai chiều, vì vậy các mô hình ngôn ngữ sử dụng không gian vector với hàng trăm hoặc thậm chí hàng nghìn chiều. Ví dụ, những từ gần "Hà Nội" trong không gian vector có thể là "thủ đô", "Việt Nam", hoặc "đông dương". Điểm mạnh của cách biểu diễn này là khả năng thực hiện các phép tính toán học trên từ. Chẳng hạn, bạn có thể lấy vector của "Hà Nội", trừ đi "Việt Nam" và cộng "Campuchia", kết quả có thể gần với "Phnom Penh". Khái niệm vector từ đã tồn tại từ lâu, nhưng trở nên phổ biến khi Google công bố dự án word2vec vào năm 2013. Google phân tích hàng triệu tài liệu để học cách các từ xuất hiện trong câu, sau đó sử dụng mạng nơ-ron để tạo ra các vector từ. Những từ có ý nghĩa tương tự (như "Hà Nội" và "Phnom Penh") được đặt gần nhau trong không gian vector. Mục đích là để xác định những từ nào thường xuất hiện trong các câu tương tự nhau. Hơn nữa, vector từ còn cho phép "lý luận" thông qua toán học. Chẳng hạn, nếu lấy vector "lớn nhất" trừ "lớn" rồi cộng "nhỏ", kết quả gần nhất có thể là "nhỏ nhất". Quay lại với ví dụ CAT, ta có thể thấy mối liên hệ qua "không gian từ": - "Mèo" và "chó" sẽ gần nhau vì chúng đều là thú cưng - Từ càng xa trong ý nghĩa (ví dụ "rat" - chuột và "ferret" - chồn sương, "raccoon" - gấu mèo) thì càng ít có kết nối trực tiếp tới CAT. Trong hình trên, chúng ta chỉ thấy được mối liên hệ đơn giản như "là thú cưng". Nhưng thực tế, một từ như "mèo" có rất nhiều đặc điểm khác: có thể trèo cao, thích uống sữa, kêu "meo meo", săn chuột, có ria mép, thích ngủ, có 4 chân... và hàng trăm đặc điểm khác Mỗi đặc điểm này sẽ cần một chiều riêng trong không gian vector để biểu diễn. Não người không thể tưởng tượng được không gian có nhiều chiều như vậy (chúng ta chỉ quen với 2-3 chiều), nhưng máy tính có thể dễ dàng xử lý và tạo ra các kết quả hữu ích từ những không gian nhiều chiều này. Hoặc: - vector("vua") - vector("đàn ông") + vector("phụ nữ") ~ vector("nữ hoàng") Bởi vì các vector này được xây dựng từ cách con người sử dụng từ ngữ, chúng sẽ phản ánh nhiều định kiến hiện có trong ngôn ngữ của con người. Ví dụ, trong một số mô hình vector từ, "bác sĩ" trừ "nam" cộng "nữ" sẽ cho ra kết quả là "y tá". Việc giảm thiểu những định kiến như thế này là một lĩnh vực đang được nghiên cứu tích cực. Đây được coi là định kiến vì nó phản ánh định kiến xã hội, ngầm định rằng bác sĩ thường là nam giới, và y tá thường là nữ giới. "Không gian từ" được tạo ra từ các phân tích hàng trăm triệu văn bản thực tế (OP), trong đó các văn bản này từ "bác sĩ" xuất hiện nhiều với đại từ "ông/anh", từ "y tá" thường xuất hiện với đại từ "cô/chị"- nên các mô hình học được mối liên hệ này từ dữ liệu có sẵn. Tuy nhiên, thực tế thì bác sĩ có thể là nam hoặc nữ, và y tá cũng có thể là nam hoặc nữ. Tuy nhiên, vector từ vẫn là một khối xây dựng hữu ích cho các mô hình ngôn ngữ vì chúng mã hóa những thông tin tinh tế nhưng quan trọng về mối quan hệ giữa các từ. Nếu một mô hình ngôn ngữ học được điều gì đó về "mèo" (ví dụ: đôi khi phải đi khám thú y), điều tương tự cũng có thể đúng với "mèo con" hoặc "chó". Nếu một mô hình học được mối quan hệ giữa "Hà Nội" và "Việt Nam" (ví dụ: họ nói cùng một ngôn ngữ), rất có thể điều tương tự cũng đúng với "Bangkok" và "Thái Lan" hoặc "Phnom Penh" và "Campuchia". Điều này cho thấy các vector từ không chỉ nắm bắt ý nghĩa của từ mà còn cả những mối quan hệ và ngữ cảnh văn hóa-xã hội phức tạp trong cách chúng ta sử dụng ngôn ngữ.
-
Hi ae, Như mọi người đã biết, khi sử dụng một dịch vụ nào đó, các bên cung cấp dịch vụ luôn có Chính sách sử dụng và bảo vệ quyền riêng tư. Vấn đề là nó rất dài (tôi đã thấy cái Privacy Policy gần 100 trang của một số ông lớn), và nó sinh ra để bảo vệ công ty khỏi bị người dùng kiện cáo nếu bị chia sẻ thông tin. Nếu mọi người không đồng ý thì khỏi sử dụng, tuy nhiên đã sử dụng thì phải đồng ý 😁. Dưới đây mình thấy có 2 nguồn thông tin khá ổn để mọi người có thể cập nhật liên tục. 1. https://github.com/pluja/awesome-privacy Đây là tập hợp các ứng dụng thay thế cho các ứng dụng mà mọi người buộc phải đồng ý phải chia sẻ dữ liệu cá nhân thì mới được sử dụng, và những ứng dụng có nguy cơ đánh cắp thông tin cá nhân của mọi người. 2. https://tosdr.org/ Dự án ToS;DR, tạm gọi là Term Of Service Didn't Read 😁. Với những cái chính sách về quyền riêng tư và sử dụng dịch vụ dài lê thê thì có mấy ai đọc hết. Vì vậy dự án này tóm tắt các ý chính của các bên cung cấp dịch vụ nổi tiếng và xếp hạng dịch vụ đó về mức độ bảo vệ quyền riêng tư như thế nào. Nếu mọi người có thêm thông tin về các dự án tương tự thì chia sẻ lên nhé.
-
Trong những ngày quốc tang của đất nước, một nỗi buồn tiếc thương sâu sắc với mọi người dân Việt Nam. Xin Vĩnh biệt Bác. Bác sẽ sống mãi trong lòng người dân Việt Nam, mong Bác yên nghỉ. Bên cạnh đó, hôm nay 26/7/2024 ngày thứ 6 cuối cùng của tháng 7 là ngày kỉ niệm SAAD (System Administrator Appreciation Day) lần thứ 9 của Hospitality Community . Chúng em luôn tưởng nhớ người anh thân thương trong ngành hospitality Bung Bia đã đột ngột ra đi để lại niềm tiếc thương vô vàn. Nay em đến để thắp anh nén hương, mong anh yên nghỉ. Bạn bè và gia đình anh luôn tự hào về anh.
-
19.07.24 a Blue System Administrator Appreciation Day?
BabyShark replied to BabyShark's topic in Though of the Day
Cảm ơn anh @RED. Nhưng nếu không để bên 3rd tác động vào core, thì hệ sinh thái của MS sẽ không phát triển được. Theo mình hiểu, BSOD liên quan đến ring 0 kernel windows. Tại đây có các hook hiếc, can thiệp mức độ low level nhất. Như vậy mới chặn được các mối nguy từ tận gốc, nếu MS không cho thì một bên làm bảo mật như CrowdStrike cũng khó hoạt động hiệu quả được. -
19.07.24 a Blue System Administrator Appreciation Day?
RED replied to BabyShark's topic in Though of the Day
Theo tôi đây là lỗi của cả anh lẫn ả. MS quá mong manh khi để các thay đổi của bên thứ ba tác động vào tận core. -
19.07.24 a Blue System Administrator Appreciation Day?
BabyShark posted a topic in Though of the Day
Image credit: bbc.com Hello 499 AE, Còn 7 ngày nữa là tới ngày System Administrator Appreciation Day 2024. Như chúng ta đã biết, sự cố BSOD hôm 19.07.24 đã gây ra thiệt hại lớn ước tính hàng chục triệu đô do conflict bản cập nhật của CrowdStrike, C-00000291.sys và Microsoft đẫn đến tạm ngưng các dịch vụ liên quan. Câu hỏi đặt ra là, để dẫn đến hệ thống phải tạm ngưng vì BSOD đây là lỗi của bên nào? Microsoft? CrowdStrike hay của System Admin? Mời các bạn chia sẻ thêm. -
Hello @SonGoKu Giữa năm, hiện giờ mình cũng không có. Nếu có nhờ bạn chia sẻ thêm. Thanks 😁