Jump to content
Hospitality Community

BabyShark

Members
  • Posts

    128
  • Joined

  • Days Won

    30

Everything posted by BabyShark

  1. Chúc mừng năm mới 499 ae, Hôm nay là mồng 1 đầu năm, mình khai bút đầu năm tiếp. Ví dụ về định kiến trong khi test thử 1 LLMs: Ở đây có 2 vấn đề: 1. Định kiến: tắm bùn là chỉ có phụ nữ, mặc dù khi hỏi không đề cập về giới tính. 2. Chốt hạ bằng một câu tiếng Đức, tại sao lại tiếng Đức? Có phải chăng tài khoản này có liên quan đến gì đến nước Đức?
  2. Hi 499ae, Trong tương lai, tôi nghĩ sớm hay muộn, ngành du lịch sẽ ứng dụng AI Chatbot để phản hồi các hỏi đáp, yêu cầu của khách hàng. Hãy thử tưởng tượng, khách sạn của mình có một bạn AI ChatBot về F&B chuyên nhận order phòng giúp giảm tải cho các số hot line liên hệ đặt dịch vụ, hoặc một AI Income Auditor Bot có thể hỗ trợ phòng Kế Toán giảm tải các kiểm tra, đối chiếu liên quan từ dữ liệu đầu vào là các biểu mãu, báo cáo.... như vậy năng suất lao động có thể tăng lên đáng kể so với sức "CƠM". Để làm được điều này, đầu tiên là các AI Chatbot này sẽ phải "hiểu được" câu chuyện nó đang trao đổi, trong đó "Ngôn Ngữ Lớn - Large Language Model - LLM) là thành phần chính không thể thiếu. Vậy, LLM là gì? Nó hoạt động ra sao? Để tìm hiểu mô hình ngôn ngữ lớn là gì chúng ta sẽ điểm qua các nội dung từ bài viết: Large language models, explained with a minimum of math and jargon Khi ChatGPT được giới thiệu vào mùa thu năm ngoái, nó đã gây chấn động trong ngành công nghệ và cả thế giới. Trước đó, các nhà nghiên cứu học máy đã thử nghiệm với các mô hình ngôn ngữ lớn (LLMs) trong vài năm, nhưng công chúng chưa chú ý nhiều và không nhận ra sức mạnh của chúng. Ngày nay, hầu như ai cũng đã nghe về LLMs, và hàng chục triệu người đã thử chúng. Tuy nhiên, không nhiều người thực sự hiểu cách chúng hoạt động. Nếu bạn biết một chút về chủ đề này, có lẽ bạn đã nghe rằng LLMs được "huấn luyện để dự đoán từ tiếp theo" và cần một lượng lớn dữ liệu văn bản để làm điều này. Nhưng thường giải thích dừng lại ở đó, còn chi tiết về cách chúng dự đoán từ tiếp theo vẫn được coi là bí ẩn. Nguyên nhân một phần là do cách phát triển hệ thống này rất khác thường. Phần mềm truyền thống được lập trình bởi con người với các hướng dẫn cụ thể, từng bước (if... then..else). Trong khi đó, ChatGPT được xây dựng trên mạng nơ-ron được huấn luyện với hàng tỷ từ ngôn ngữ thông thường. Do đó, không ai trên thế giới thực sự hiểu hoàn toàn cơ chế bên trong của LLMs. Các nhà nghiên cứu vẫn đang cố gắng hiểu rõ hơn, nhưng đây là một quá trình chậm, có thể mất nhiều năm hoặc thậm chí nhiều thập kỷ. Dù vậy, cũng có rất nhiều chuyên gia đã hiểu được nhiều điều về cách hoạt động của các hệ thống này. Mục tiêu của bài viết này là làm cho kiến thức đó trở nên dễ hiểu với đa số mọi người, tránh dùng thuật ngữ kỹ thuật hoặc toán học phức tạp. Chúng tôi (tác giả bài báo, không phải là OP 😁)sẽ bắt đầu với việc giải thích về vector từ, cách thức đáng ngạc nhiên mà các mô hình ngôn ngữ này biểu diễn và suy luận về ngôn ngữ. Sau đó, chúng ta sẽ tìm hiểu sâu về transformer, nền tảng cơ bản cho các hệ thống như ChatGPT. Cuối cùng, chúng tôi sẽ giải thích cách các mô hình này được huấn luyện và tại sao hiệu suất tốt lại cần một lượng dữ liệu khổng lồ như vậy. Để hiểu cách các mô hình ngôn ngữ hoạt động, trước tiên cần hiểu cách chúng đại diện cho từ ngữ. Con người biểu diễn từ ngữ bằng các chuỗi ký tự, như C-A-T cho CAT. Các mô hình ngôn ngữ sử dụng một danh sách dài các con số gọi là vector từ. Ví dụ, đây là MỘT cách để biểu diễn từ CAT [0.0045, -0.0023, 0.0098, -0.0342, 0.0156, …] Xem đầy đủ từ biểu diễn 300 vector của CAT tại: Semantically related words for "cat_NOUN" Tại sao lại sử dụng ký hiệu phức tạp như vậy? Đây là một ví dụ tương tự. Chẳng hạn, ta có các thành phố với tọa độ như sau: Hà Nội nằm ở [21.0285, 105.8542] TP.HCM nằm ở [10.8231, 106.6297] Vientiane nằm ở [17.9757, 102.6331] Phnom Penh nằm ở [11.5564, 104.9282] Điều này hữu ích để lý giải về mối quan hệ không gian. Bạn có thể thấy TP.HCM gần Phnom Penh vì 10.8231 gần với 11.5564 và 106.6297 gần với 104.9282. Tương tự, Hà Nội gần với Vientiane hơn. Nhưng Hà Nội thì xa TP.HCM. Các mô hình ngôn ngữ cũng áp dụng cách tiếp cận tương tự: mỗi vector từ đại diện cho một điểm trong "không gian từ" tưởng tượng, và những từ có ý nghĩa tương tự nhau được đặt gần nhau hơn. Từ này quá phức tạp để biểu diễn chỉ trong hai chiều, vì vậy các mô hình ngôn ngữ sử dụng không gian vector với hàng trăm hoặc thậm chí hàng nghìn chiều. Ví dụ, những từ gần "Hà Nội" trong không gian vector có thể là "thủ đô", "Việt Nam", hoặc "đông dương". Điểm mạnh của cách biểu diễn này là khả năng thực hiện các phép tính toán học trên từ. Chẳng hạn, bạn có thể lấy vector của "Hà Nội", trừ đi "Việt Nam" và cộng "Campuchia", kết quả có thể gần với "Phnom Penh". Khái niệm vector từ đã tồn tại từ lâu, nhưng trở nên phổ biến khi Google công bố dự án word2vec vào năm 2013. Google phân tích hàng triệu tài liệu để học cách các từ xuất hiện trong câu, sau đó sử dụng mạng nơ-ron để tạo ra các vector từ. Những từ có ý nghĩa tương tự (như "Hà Nội" và "Phnom Penh") được đặt gần nhau trong không gian vector. Mục đích là để xác định những từ nào thường xuất hiện trong các câu tương tự nhau. Hơn nữa, vector từ còn cho phép "lý luận" thông qua toán học. Chẳng hạn, nếu lấy vector "lớn nhất" trừ "lớn" rồi cộng "nhỏ", kết quả gần nhất có thể là "nhỏ nhất". Quay lại với ví dụ CAT, ta có thể thấy mối liên hệ qua "không gian từ": - "Mèo" và "chó" sẽ gần nhau vì chúng đều là thú cưng - Từ càng xa trong ý nghĩa (ví dụ "rat" - chuột và "ferret" - chồn sương, "raccoon" - gấu mèo) thì càng ít có kết nối trực tiếp tới CAT. Trong hình trên, chúng ta chỉ thấy được mối liên hệ đơn giản như "là thú cưng". Nhưng thực tế, một từ như "mèo" có rất nhiều đặc điểm khác: có thể trèo cao, thích uống sữa, kêu "meo meo", săn chuột, có ria mép, thích ngủ, có 4 chân... và hàng trăm đặc điểm khác Mỗi đặc điểm này sẽ cần một chiều riêng trong không gian vector để biểu diễn. Não người không thể tưởng tượng được không gian có nhiều chiều như vậy (chúng ta chỉ quen với 2-3 chiều), nhưng máy tính có thể dễ dàng xử lý và tạo ra các kết quả hữu ích từ những không gian nhiều chiều này. Hoặc: - vector("vua") - vector("đàn ông") + vector("phụ nữ") ~ vector("nữ hoàng") Bởi vì các vector này được xây dựng từ cách con người sử dụng từ ngữ, chúng sẽ phản ánh nhiều định kiến hiện có trong ngôn ngữ của con người. Ví dụ, trong một số mô hình vector từ, "bác sĩ" trừ "nam" cộng "nữ" sẽ cho ra kết quả là "y tá". Việc giảm thiểu những định kiến như thế này là một lĩnh vực đang được nghiên cứu tích cực. Đây được coi là định kiến vì nó phản ánh định kiến xã hội, ngầm định rằng bác sĩ thường là nam giới, và y tá thường là nữ giới. "Không gian từ" được tạo ra từ các phân tích hàng trăm triệu văn bản thực tế (OP), trong đó các văn bản này từ "bác sĩ" xuất hiện nhiều với đại từ "ông/anh", từ "y tá" thường xuất hiện với đại từ "cô/chị"- nên các mô hình học được mối liên hệ này từ dữ liệu có sẵn. Tuy nhiên, thực tế thì bác sĩ có thể là nam hoặc nữ, và y tá cũng có thể là nam hoặc nữ. Tuy nhiên, vector từ vẫn là một khối xây dựng hữu ích cho các mô hình ngôn ngữ vì chúng mã hóa những thông tin tinh tế nhưng quan trọng về mối quan hệ giữa các từ. Nếu một mô hình ngôn ngữ học được điều gì đó về "mèo" (ví dụ: đôi khi phải đi khám thú y), điều tương tự cũng có thể đúng với "mèo con" hoặc "chó". Nếu một mô hình học được mối quan hệ giữa "Hà Nội" và "Việt Nam" (ví dụ: họ nói cùng một ngôn ngữ), rất có thể điều tương tự cũng đúng với "Bangkok" và "Thái Lan" hoặc "Phnom Penh" và "Campuchia". Điều này cho thấy các vector từ không chỉ nắm bắt ý nghĩa của từ mà còn cả những mối quan hệ và ngữ cảnh văn hóa-xã hội phức tạp trong cách chúng ta sử dụng ngôn ngữ.
  3. Hi ae, Như mọi người đã biết, khi sử dụng một dịch vụ nào đó, các bên cung cấp dịch vụ luôn có Chính sách sử dụng và bảo vệ quyền riêng tư. Vấn đề là nó rất dài (tôi đã thấy cái Privacy Policy gần 100 trang của một số ông lớn), và nó sinh ra để bảo vệ công ty khỏi bị người dùng kiện cáo nếu bị chia sẻ thông tin. Nếu mọi người không đồng ý thì khỏi sử dụng, tuy nhiên đã sử dụng thì phải đồng ý 😁. Dưới đây mình thấy có 2 nguồn thông tin khá ổn để mọi người có thể cập nhật liên tục. 1. https://github.com/pluja/awesome-privacy Đây là tập hợp các ứng dụng thay thế cho các ứng dụng mà mọi người buộc phải đồng ý phải chia sẻ dữ liệu cá nhân thì mới được sử dụng, và những ứng dụng có nguy cơ đánh cắp thông tin cá nhân của mọi người. 2. https://tosdr.org/ Dự án ToS;DR, tạm gọi là Term Of Service Didn't Read 😁. Với những cái chính sách về quyền riêng tư và sử dụng dịch vụ dài lê thê thì có mấy ai đọc hết. Vì vậy dự án này tóm tắt các ý chính của các bên cung cấp dịch vụ nổi tiếng và xếp hạng dịch vụ đó về mức độ bảo vệ quyền riêng tư như thế nào. Nếu mọi người có thêm thông tin về các dự án tương tự thì chia sẻ lên nhé.
  4. Cảm ơn anh @RED. Nhưng nếu không để bên 3rd tác động vào core, thì hệ sinh thái của MS sẽ không phát triển được. Theo mình hiểu, BSOD liên quan đến ring 0 kernel windows. Tại đây có các hook hiếc, can thiệp mức độ low level nhất. Như vậy mới chặn được các mối nguy từ tận gốc, nếu MS không cho thì một bên làm bảo mật như CrowdStrike cũng khó hoạt động hiệu quả được.
  5. Image credit: bbc.com Hello 499 AE, Còn 7 ngày nữa là tới ngày System Administrator Appreciation Day 2024. Như chúng ta đã biết, sự cố BSOD hôm 19.07.24 đã gây ra thiệt hại lớn ước tính hàng chục triệu đô do conflict bản cập nhật của CrowdStrike, C-00000291.sys và Microsoft đẫn đến tạm ngưng các dịch vụ liên quan. Câu hỏi đặt ra là, để dẫn đến hệ thống phải tạm ngưng vì BSOD đây là lỗi của bên nào? Microsoft? CrowdStrike hay của System Admin? Mời các bạn chia sẻ thêm.
  6. Hello @SonGoKu Giữa năm, hiện giờ mình cũng không có. Nếu có nhờ bạn chia sẻ thêm. Thanks 😁
  7. @BAL bổ ích, thanks đã chia sẻ. Tuy nhiên việc áp dụng thì tại VN nên sẽ phải theo pháp luật và giáo khoa VN. Bạn có dẫn chứng nào mà việc thức uống không cồn tại VN phải thuộc Food không?
  8. Nhưng như vậy sẽ còn đầu tư thêm chromecast và băng thông. Còn đi setup on demand thì oải quá.
  9. Chỉ trong vòng 100 năm, công nghệ của loài người đã tiến xa vượt sức tưởng tượng so với thế hệ ông bà của chúng ta. Hiện nay chúng ta có AI, có chip cấy vào não... Cùng quay lại thời điểm của vụ nổ big bang. Các nhà khoa học nói đó chỉ là một sự kiện ngẫu nhiên đến từ một điểm kỳ dị. Mười mấy tỷ năm sau, loài người xuất hiện. Liệu đây có phải là toàn bộ sự kiện ngẫu nhiên? Tại sao lại có những công thức toán học và vật lý chính xác và đúng đắn đến như vậy? Trong bộ phim Matrix hay Interceptor, con người sống và vận hành trong một thế giới trong mơ với thực tại là nằm ngủ. Trong bộ phim Westworld, các robot sống trong một thế giới của riêng họ nhưng đối với họ đó mới là thế giới. Vậy hãy cùng tưởng tượng! Giả sử một ngày nào đó, công nghệ của loài người có thể tạo ra thế hệ AI siêu việt, chúng ta tạo ra những nhân vật ảo, xã hội ảo có trí tuệ, đối với họ, tự vận hành theo cách của họ, lúc đó thế giới quan của họ mới là thế giới thật, tất cả vượt ra thế giới đó là thế giới ảo. Đến lúc đó, có lẽ chúng ta sẽ cũng tự chất vấn chính mình, liệu có phải chúng ta cũng chính là sản phẩm của một loài siêu việt về trí tuệ hay không? Mọi người nghĩ thế nào?
  10. Hello 499 AE, Trong môi trường hiện nay, ngoài yêu cầu wifi miễn phí tốc độ cao, khách còn yêu cầu thêm youtube và netflix với tivi trong phòng. Rõ ràng, chưa nói đến việc đầu tư tivi và hệ thống xịn, việc này còn sẽ tiêu tốn băng thông internet. Liệu có giải pháp nào cho việc này? Mọi người có cao kiến gì không? Vui lòng chia sẻ thêm kinh nghiệm để anh em cùng giao lưu học hỏi nhé. Thank you.
  11. Không có, chuẩn này do mình tạo ra. 1. Đảm bảo các vùng hot spot như giường, bàn làm việc, NVS, ban công, ghế sunbeds đạt mức trên. 2. Call voice app zalo, whats app viber không giật lag khi move arround trong phòng, các hotspot ( nếu có roaming đảm bảo fast và <120 ms latency) Có: 3. -55dBm là tiêu chuẩn của 1 global resort trước kia mình làm.
  12. dùng edge lưu được không anh?
  13. Nếu tôi đoán không nhầm, file này từ 1 HR huyền thoại mà ra (các thế hệ sau chỉ copy lại và làm theo - mà không biết tại sao). Đi làm ở 3 công ty dính cả 3. Và nếu không lầm tiếp, excel này set rule để tô màu xanh đỏ tím vàng cho các ngày phép, lấy range khá lớn => đơ và lag. Tôi đã giải quyết xong, bằng cách mua HRMS xịn luôn.😅😂
  14. Chúng ta sẽ chơi Teams hoặc chuyển tiếp thông qua Zapier hoặc chơi các chat bot AI luôn 🙃. Vậy có được không?
  15. Tôi cảm giác đọc bài này giống như đây là một chủ đầu tư hoặc một giám đốc sales chứ không liên quan gì kế toán hahaha. Cảm ơn anh @BAL đã chia sẻ.
  16. Anh @Tuấn Bonecó thể chia sẻ giải pháp của với Smile là ntn được không ạ.
  17. @SonGoKu Cảm ơn bạn. Bạn có thể cho tôi xin một ví dụ cụ thể được không?
  18. Tôi thấy nhiều nơi đang dán cái mã QR WhatsApp tại phòng, tôi tự hỏi, liệu sẽ ra sao nếu như khách trước cố tình để lại QR giả nhỉ? Chi phí cho một chiến dịch scam là 1 room night/1 phòng. @SonGoKu chỗ tôi chưa áp dụng, tôi lót dép hóng tiếp.
  19. Đối với các hệ thống real-time, nếu bỏ qua không bấm cái nút Check-In liền ngay khi khách nhận phòng, tôi nghĩ sẽ có rất nhiều điều phiền toái sẽ tiếp diễn nếu như đó là một Smart Hotel hay Resort.
  20. Cảm ơn anh @JaiDee đã đưa lên một vấn đề rất hay, lót dép hóng giải pháp từ anh ạ.
  21. Anh @Park cho em hỏi trên TP-Link OMADA có tính năng này không ạ.
×
×
  • Create New...