IRTUM – Institutional Repository of the Technical University of Moldova

Retrieval-augmented generation using domain-specific text: a pilot study

Show simple item record

dc.contributor.author IAPĂSCURTĂ, Victor
dc.contributor.author KRONIN, Sergey
dc.contributor.author FIODOROV, Ion
dc.date.accessioned 2024-12-12T06:28:29Z
dc.date.available 2024-12-12T06:28:29Z
dc.date.issued 2024
dc.identifier.citation IAPĂSCURTĂ, Victor; Sergey KRONIN and Ion FIODOROV. Retrieval-augmented generation using domain-specific text: a pilot study = Generarea augmentată de recuperare folosind text specific domeniului: studiu pilot. Journal of Engineering Science. 2024, nr. 2 (31), pp. 48-59. ISSN 2587-3474, eISSN 2587-3482. en_US
dc.identifier.issn 2587-3474
dc.identifier.issn 2587-3482
dc.identifier.uri https://www.doi.org/10.52326/jes.utm.2024.31(2).05
dc.identifier.uri http://repository.utm.md/handle/5014/28857
dc.description.abstract The natural language processing (NLP) field has witnessed remarkable advancements with the advent of large language models (LLMs) like GPT, Gemini, Claude, etc. These models are trained on vast amounts of text data, allowing them to generate human-like responses for various tasks. However, despite their impressive capabilities, LLMs have limitations in their ability to incorporate and reason over external knowledge that is not in their training data. This limitation of LLMs is particularly evident in the case of specific domain knowledge. This situation has given rise to the concept of retrieval augmented generation (RAG), an approach that combines the generative power of LLMs with the ability to retrieve and integrate relevant information from external knowledge sources. This research attempts to use RAG as a module in an application designed to answer questions concerning a specific domain, namely social philosophy/philosophy of management, using a published book from the respective domain as an external source. The paper analyzes the mentioned application output, draws conclusions, and traces future directions to improve the accuracy of the output. en_US
dc.description.abstract Domeniul procesării limbajului natural (NLP) a fost martorul unor progrese remarcabile odată cu apariția modelelor de limbaj mari (LLM) precum GPT, Gemini, PaLM, Claude și altele. Aceste modele sunt antrenate pe cantități mari de date text, permițându-le să genereze răspunsuri asemănătoare omului pentru diferite sarcini. Cu toate acestea, în ciuda capacităților lor impresionante, LLM-urile au limitări în capacitatea lor de a încorpora și raționa cunoștințele externe care nu sunt în datele lor de formare. Această limitare a LLMurilor este deosebit de evidentă în cazul cunoștințelor specifice domeniului. Această situație a dat naștere conceptului de retrieval augmented generation (RAG), o abordare care combină puterea generativă a LLM-urilor cu capacitatea de a prelua și integra informații relevante din surse externe de cunoștințe. Această cercetare încearcă să utilize ze RAG ca modul întro aplicație menită să răspundă la întrebări referitoare la un anumit domeniu, și anume filosofia socială/filosofia managementului, folosind ca sursă externă o carte publicată din domeniul respectiv. Lucrarea analizează rezultatul aplicației menționate, trage concluzii și urmărește direcțiile viitoare pentru a îmbunătăți acuratețea rezultatelor. en_US
dc.language.iso en en_US
dc.publisher Technical University of Moldova en_US
dc.relation.ispartofseries Journal of Engineering Science, 2024, vol. 31, nr. 2;
dc.rights Attribution-NonCommercial-NoDerivs 3.0 United States *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/us/ *
dc.subject natural language en_US
dc.subject retrieval-augmented en_US
dc.subject large language models en_US
dc.subject domain-specific knowledge en_US
dc.subject domain-specific text en_US
dc.subject limbaj natural en_US
dc.subject augmentare de recuperare en_US
dc.subject modele mari de limbaj en_US
dc.subject cunoştinţe specifice domeniului en_US
dc.subject text specific domeniului en_US
dc.title Retrieval-augmented generation using domain-specific text: a pilot study en_US
dc.title.alternative Generarea augmentată de recuperare folosind text specific domeniului: studiu pilot en_US
dc.type Article en_US


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States

Search DSpace


Browse

My Account