久久精品成人国产午夜,成人毛片直播放免费

-- 文末贈《知識圖譜實戰(zhàn)：構(gòu)建方法與行業(yè)應用》書籍 --

從搜索引擎到個人助手，我們每天都在使用問答系統(tǒng)。問答系統(tǒng)必須能夠訪問相關的知識并進行推理。通常，知識可以隱式地編碼在大型語言模型（LLMs）中，例如ChatGPT、T5 和LaMDA 等大型語言模型，這些模型在未結(jié)構(gòu)化文本上進行預訓練，或者顯式地表示在知識圖譜（KGs）中，例如OpenKG和ConceptNet，其中實體表示為節(jié)點，它們之間的關系表示為邊。

最近，預訓練的LLMs在許多問答任務中取得了顯著的成功。該領域瞬息萬變，算法的進步正在產(chǎn)生非常重大的影響。那不經(jīng)產(chǎn)生疑問，目前備受關注的ChatGPT訓練過程中有使用到知識圖譜嗎？ChatGPT在不同時間（2月份和3月份）給出了不同的答案：

圖1 詢問時間2023.02

圖2 詢問時間2023.03

那么，ChatGPT的成功是不是只是高概率語言模式的再現(xiàn)？為什么要使用知識圖譜？簡單來說僅靠數(shù)據(jù)驅(qū)動是不夠的，但知識驅(qū)動的組織可以在充分的背景下做決定，并對他們的決策充滿信心。

首先我們了解一下關于ChatGPT你應該知道的事。

大型語言模型

在過去幾年中，大型語言模型 (LLM) 已經(jīng)發(fā)展出驚人的生成人類語言的技能。如下圖展示了流行的LLMs在人類認知能力方面的得分情況，

LLMs在人類認知能力方面的得分情況（來源：自2021年以來對約40萬個人工智能相關的在線文本進行語義分析）

語言模型使用文本生成解決問答任務。根據(jù)訓練數(shù)據(jù)集，語言模型可以分為：（i）通用模型，例如PaLM，OPT和GPT-NeoX-20B；以及（ii）特定領域模型，例如Galactica，SciBERT和BioMegatron。更先進的對話型AI（Conversational AI）模型從最近的語言模型進展中受益，創(chuàng)造出能夠在與用戶對話中回答問題的聊天機器人。例如，基于OpenAI的聊天機器人ChatGPT 受到了大量的關注。GPT代表Generative Pretrained Transformer，是一種 AI 算法，可以基于攝取大量文本和數(shù)據(jù)并推導語言規(guī)則和關系來創(chuàng)建新內(nèi)容。為響應輸入而生成的文本可以非常微妙和富有創(chuàng)意，給人一種正在與人交談的印象。與搜索引擎不同，它不是簡單地檢索信息，而是根據(jù)通過算法處理的大量數(shù)據(jù)導出的規(guī)則和關系生成信息。那ChatGPT的成功又得益于一系列技術和數(shù)據(jù)，下面展開介紹：

Transformer有什么用？為什么這么受歡迎？

Transformers被用于多種自然語言處理（NLP）任務，例如語言翻譯、情感分析、文本摘要、問答等等。最初的Transformer模型是專門為語言翻譯設計的，主要用于將英語翻譯成德語。然而，已經(jīng)發(fā)現(xiàn)該架構(gòu)可以很好地適用于其他語言任務。這種趨勢很快被研究社區(qū)所注意到。接下來的幾年月里，幾乎所有與語言相關的機器學習任務的排行榜都被Transformer架構(gòu)的某個版本所主導。因此，Transformers非常受歡迎。Huggingface是一家初創(chuàng)公司，迄今已經(jīng)籌集了超過6000萬美元，幾乎完全圍繞商業(yè)化他們的開源Transformer庫這一想法。

下面用三張圖首先直觀感受下Transformer家族模型的關系、時間線以及大小。第一張圖旨在突出顯示不同類型的Transformer及它們之間的關系。

Transformer家族關系

第二張圖時間線視圖是一個有趣的角度，可以將目錄中的Transformer按發(fā)布日期排序。在這個可視化中，Y軸僅用于聚類相關的家族Transformer。

Transformer家族時間線

在下一個可視化圖中，Y軸表示模型大小，以百萬參數(shù)為單位。

Transformer家族模型大小

Transformers之所以能夠迅速占領大多數(shù)自然語言處理排行榜的關鍵原因之一是它們具有快速適應其他任務的能力，也就是遷移學習。預訓練的Transformer模型可以非常容易和快速地適應它們未被訓練過的任務，這帶來了巨大的優(yōu)勢。

Transformer取得成功的一個重要概念

Transformer取得成功的一方面是語言模型中的RLHF (Reinforcement Learning with Human Feedback，人類反饋強化學習)。RLHF已成為人工智能重要組成部分，這個概念早在2017年就已經(jīng)在論文“Deep reinforcement learning from human preferences”中提出了。然而，最近它已經(jīng)被應用于ChatGPT和類似的對話系統(tǒng)，如BlenderBot3或Sparrow。其思想非常簡單：一旦一個語言模型被預訓練，我們就可以生成不同的對話響應，并讓人類對結(jié)果進行排名。

在ChatGPT訓練過程中，OpenAI 從字面上讓人類與自己進行角色扮演——通過稱為人類反饋強化學習 (RLHF) 的過程既充當 AI 助手又充當其用戶。然后，在構(gòu)建了足夠多的對話之后，它們被饋送到GPT-3.5。在充分接觸對話之后，ChatGPT 應運而生。

下面舉例說明如何理解RLHF？

想象一下，您有一個名叫 Rufus 的機器人，它想學習如何像人一樣說話。Rufus 有一個語言模型可以幫助他理解單詞和句子。首先，Rufus 會使用他的語言模型說些什么。例如，他可能會說“I am a robot”。

然后，一個人會聽 Rufus 說的話，并就這聽起來是否像人類會說的自然句子給他反饋。人類可能會說，“這不太對，Rufus。人類通常不會說'I am a robot’。他們可能會說'I’m a robot’或'I am a machine’?！?o:p>

Rufus 將接受此反饋并使用它來更新他的語言模型。他將嘗試使用他從人類那里收到的新信息再次說出這句話。人類會再次傾聽并給 Rufus 更多反饋。這個過程將一直持續(xù)到 Rufus 可以說出人類聽起來自然的句子為止。

隨著時間的推移，Rufus 將學習如何像人一樣說話，這要歸功于他從人類那里收到的反饋。這就是使用 RL 和人類反饋來改進語言模型的方式。

訓練數(shù)據(jù)

下面通過對比OpenAI的ChatGPT和谷歌的Bard來說明訓練數(shù)據(jù)。ChatGPT和Bard 都有獨特的訓練風格。具體來說，ChatGPT 在 GPT-3.5 模型上運行，而Bard在LaMDA2上運行。我們可以將GPT-3.5視為 ChatGPT 的“大腦”，而 LaMDA2 則是Bard的。它們之間的主要共同點是它們都建立在Transformer之上。但據(jù)目前所知，這就是共同點結(jié)束的地方。

現(xiàn)在差異來了，主要是他們閱讀的內(nèi)容不同。OpenAI一直對 GPT-3.5 訓練的數(shù)據(jù)集保密。但我們確實知道 GPT-2 和 GPT-3 都至少部分地在 The Pile數(shù)據(jù)集上進行了訓練——一個包含多本完整小說和非小說書籍、來自 Github 的文本、所有維基百科、StackExchange、PubMed等。這個數(shù)據(jù)集非常龐大，原始文本超過825 GB。

但這就是問題所在：對話語言與書面語言不同。一個作者可能文字非常有激情，但在一對一的談話中卻顯得生硬。因此，OpenAI不能僅僅以別名“ChatGPT”發(fā)布 GPT-3.5 就此收工。相反，OpenAI 需要在對話文本上微調(diào) GPT-3.5 以創(chuàng)建 ChatGPT，以語言服務模型 InstructGPT 為基礎。

這就是有些人可能認為Bard有優(yōu)勢的地方。LaMDA 沒有接受過 The Pile 的訓練。相反，LaMDA 從一開始就專注于閱讀對話。它不讀書，它以談話的節(jié)奏和方言為模式。結(jié)果，Bard捕捉到了將開放式對話與其他交流形式區(qū)分開來的細節(jié)。

換句話說，ChatGPT的大腦在學會如何進行類似人類的對話之前，首先學會了閱讀小說、研究論文、代碼和維基百科，而Bard只學會了對話。

Typical chatbot(Bert)	GPT-3	LaMDA
在特定主題的數(shù)據(jù)集上	未標記的文本數(shù)據(jù)集	未標記的文本數(shù)據(jù)集
只從訓練數(shù)據(jù)中提供答案	1750億參數(shù)，基于維基百科、小說等數(shù)據(jù)	1370億參數(shù)，基于對話數(shù)據(jù)，無主題
有限的對話流	有限的對話流	開放式對話

訓練本地化ChatGPT需要哪些資源？

（1）訓練硬件：使用擁有約 10,000 個 GPU 和約 285,000 個 CPU 內(nèi)核的超級計算機。也可以像 OpenAI 對微軟所做的那樣，花費他們 10 億美元 (USD) 來租用它。

（2）人員配備：2016 年，OpenAI 每年向首席科學家 Ilya Sutskever支付 190 萬美元 (USD)，他們擁有一支 120 人的團隊。第一年的人員配置預算可能超過 2 億美元。

（3）時間（數(shù)據(jù)收集）：EleutherAI 花了整整 12-18 個月的時間來同意、收集、清理和準備 The Pile 的數(shù)據(jù)。

（4）時間（訓練）：預計一個模型需要 9-12 個月的訓練，如果一切順利的話。您可能需要多次運行它，并且可能需要并行訓練多個模型。（參見 GPT-3 論文、中國的 GLM-130B 和 Meta AI 的 OPT-175B 日志）。

總結(jié)來說，需要相當強大的計算機和研發(fā)人力資源。

如何寫一個提示（promot）？

在像ChatGPT 這樣的大型語言模型 (LLM) 中，提示可以包含從簡單的問題到帶有各種數(shù)據(jù)的復雜問題 (請注意，您甚至可以將原始數(shù)據(jù)的 CSV 文件作為輸入的一部分)。它也可以是一個模糊的陳述，比如“給我講個笑話，我今天情緒低落?！?/span>

Promot可以由以下任一組成部分包括：Instructions、Question、Input data、Examples?；镜慕M合例子如下：

Instructions + Input data：我畢業(yè)于清華大學，職業(yè)是算法工程師，做過很多關于NLP的任務，可以幫忙寫一個簡歷嗎？

Question + Examples：我喜歡看《傲慢與偏見》，你還可以推薦類似的書籍嗎？

Instructions + Question：ChatGPT可以在哪些方面進行改進？

將大型語言模型與知識圖譜結(jié)合也是目前一個新的改進方向。通過將知識圖譜集成到對話型人工智能系統(tǒng)中，ChatGPT可以利用圖譜中表示的結(jié)構(gòu)化數(shù)據(jù)和關系來提供更準確和全面的響應。知識圖譜可以作為領域特定知識的來源，這些知識可以用來豐富ChatGPT的響應，并使其能夠處理需要深入領域?qū)I(yè)知識的復雜用戶查詢。

參考文獻：

1.《Transformer models: an introduction and catalog》；

2.《ChatGPT versus Traditional Question Answering for Knowledge Graphs: Current Status and Future Directions Towards Knowledge Graph Chatbots》；

3. https://blog.deepgram.com/chatgpt-vs-bard-what-can-we-expect/。

關于作者：李雅潔 華中科技大學應用統(tǒng)計碩士，在知識圖譜、自然語言處理、大數(shù)據(jù)分析與挖掘、機器學習等領域有豐富的研究和開發(fā)經(jīng)驗。精通Python、R語言以及Spark等大數(shù)據(jù)框架，擅長自然語言處理及知識圖譜構(gòu)建。《知識圖譜實戰(zhàn)：構(gòu)建方法與行業(yè)應用》作者。

延伸閱讀：

《知識圖譜實戰(zhàn)：構(gòu)建方法與行業(yè)應用》

于俊李雅潔彭加琪程知遠著

推薦語：科大訊飛專家撰寫，國內(nèi)多位專家聯(lián)袂推薦，一書掌握知識圖譜的構(gòu)建方法與主流應用！詳解知識圖譜構(gòu)建7個核心步驟，剖析CCKS近年問答評測任務方案，拆解8個行業(yè)綜合案例的設計與實現(xiàn)

內(nèi)容簡介:

這是一本綜合介紹知識圖譜構(gòu)建與行業(yè)實踐的著作，是作者多年從事知識圖譜與認知智能應用落地經(jīng)驗的總結(jié)，得到了多位知識圖譜資深專家的推薦。

本書以通俗易懂的方式來講解知識圖譜相關的知識，尤其對從零開始構(gòu)建知識圖譜過程中需要經(jīng)歷的步驟，以及每個步驟需要考慮的問題都給予較為詳細的解釋。

本書基于實際業(yè)務進行抽象，結(jié)合知識圖譜的7個構(gòu)建步驟，深入分析知識圖譜技術應用以及8個行業(yè)綜合案例的設計與實現(xiàn)。

全書分為基礎篇、構(gòu)建篇、實踐篇，共16章內(nèi)容。

基礎篇（第1章），介紹知識圖譜的定義、分類、發(fā)展階段，以及構(gòu)建方式、邏輯/技術架構(gòu)、現(xiàn)狀與應用場景等。

構(gòu)建篇（第2～8章），詳細介紹知識抽取、知識表示、知識融合、知識存儲、知識建模、知識推理、知識評估與運維等知識圖譜構(gòu)建的核心步驟，并結(jié)合實例講解應用方法。

實踐篇（第9～16章），詳細講解知識圖譜的綜合應用，涵蓋知識問答評測、知識圖譜平臺、智能搜索、圖書推薦系統(tǒng)、開放領域知識問答、交通領域知識問答、汽車領域知識問答、金融領域推理決策

直播預告

AIGC拉開新AI時代的巨幕，AIGC時代深度學習如何學習？

ChatGPT如何與小模型聯(lián)合發(fā)力？

預約觀看直播！

掃碼備注“AI”，加入人工智能讀者交流群，獲取更多直播信息和新書資訊。

贈書活動

贈送書籍：《知識圖譜實戰(zhàn)：構(gòu)建方法與行業(yè)應用》

贈送數(shù)量：2本

贈書規(guī)則：轉(zhuǎn)發(fā)本文到朋友圈+本文底部精選留言2條

贈書說明：書籍免費包郵到家

截止時間：2023年3月21日 21:30開獎

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区