Agentic Pattern Design ภาคปฏิบัติ โจทย์ ที่ 1

ปัญหาหลักที่ได้รับฟี้ดแบคมาคือ Developer ที่เพิ่งเริ่มต้นทำระบบ LLM/Agent ไม่รู้จะนำ ทฤษฎี Agentic Pattern ที่อ่านมาจากในเน็ต มาประยุกต์ยังไง บทความนี้จะมาเล่าให้ฟังว่า จากโจทย์ที่เราได้รับมาจากลูกค้า เราใช้ Agentic Pattern อันไหน ที่เราใช้ช่วยแก้ปัญหาให้ลูกค้าได้จริงๆ

ด้วยเหตุนี้เลยอยากเขียนบทความนำเคสการออกแบบ Agentic Pattern จริงๆ มาแบ่งปันกัน โดยดั้งใจว่าจะแบ่งออกเป็นตอนๆ

Pre-requisite

เคยอ่านบทความ https://www.anthropic.com/engineering/building-effective-agents ผ่านๆ มาบ้าง
เคยมีประสบการณ์การใช้ LLM ทำแอพมาก่อน ไม่ว่าจะเป็นโปรเจคเล่นๆ หรือทำให้ลูกค้าจริงจัง

หมายเหตุ

ก่อนอื่นต้องของท้าวความก่อนว่า Agentic Pattern มีการพูดถึงแต่ยังไม่มีใคร standadize terms อย่างเป็นทางการ จน Anthropic เค้าออกบทความและ learning resource อื่นๆ มาเพื่อ standadize terms ให้เข้าใจตรงกัน บทความนี้ผมก็จะใช้ term เหล่านั้นในการอ้างอิง
ตัวอย่างที่เห็นในบทความนี้คือประสบการณ์จริง ที่เอามาดัดแปลงเพื่อให้สามารถถ่ายทอดเป็นความรู้ได้
เพื่อความง่ายในการทำความเข้าใจ ให้คิดไว้ว่าจุดประสงค์ของ Agentic Pattern เหล่านี้คือการเพิ่มความแม่นยำของคำตอบ ให้ได้มากที่สุด ในเวลาที่เร็วที่สุด
บทความเหล่านี้ เหมาะสำหรับ Developer ที่กำลังทำ backend application ที่ใช้ LLM ในการแก้ปัญาทางธุรกิจ เรียกง่ายๆ ก็คือ backend คุณไปเรียก LLM api นั่นเอง

โจทย์ที่ 1: Document to Graph Agent— Agent สำหรับ วิเคราะห์รายงานประจำปีของบริษัทใน SET (ตลาดหุ้นไทย)

หน้าที่ของ agent ตัวนี้คือการอ่าน และวิเคราะห์ รายงานประจำปี และทำรายงานสรุปออกมาเฉพาะส่วนที่สนใจ อย่างเช่น งบกำไรขาดทุน งบฐานะการเงิน งบกำไรขาดทุนเบ็ดเสร็จ

Input คือ รายงานประจำปี

Output คือ JSON data ที่จะนำไป ทำกราฟสรุป 3 กราฟ

Graph งบกำไรขาดทุน
Graph งบฐานะการเงิน
Graph งบกำไรขาดทุนเบ็ดเสร็จ

ตัวอย่างด้านล่างคือ JSON และ กราฟที่จะนำไปพล็อต

{
  "periods": ["Q1", "Q2", "Q3", "Q4"],
  "incomeStatement": {
    "revenue": [120, 150, 170, 200],
    "expenses": [80, 100, 120, 140]
  },
  "balanceSheet": {
    "assets": [500, 550, 600, 650],
    "liabilities": [300, 320, 340, 360]
  },
  "comprehensiveIncome": {
    "netIncome": [40, 50, 55, 60],
    "otherIncome": [5, -3, 8, 2]
  }
}

เรามาลองวิเคราะห์การวาง structure AI แบบต่างๆ เริ่มจากแบบแรก

Solution เริ่มต้น — Naive Approach(กำปั้นทุบดิน)

ตัวอย่าง Pseudo Prompt

<Context>[Report Content]</Context>
From the given report in xml tag above, Extract ….

โครงสร้างแรกที่เรามักจะเริ่มคือการใช้ LLM ในแบบเดียวกับ ChatGPT ปี 2023 นั่นก็คือใส่ Input ให้ LLM ส่งทุกอย่างออกมาเป็นอันจบ

วิเคราะห์ Input

ข้อเสียของวิธีนี้คือ ถ้า report มีขนาดใหญ่ LLM มีโอกาส Hullucinate สูงมาก ซึ่งในความเป็นจริง report ทางการเงินของบริษัทในตลาดหุ้นจะมีขนาดค่อนข้างใหญ่ ประมาณ 100–1000 หน้า โดยประมาณ

และถ้า Input content มีขนาดใหญ่เกิน LLM ก็จะส่ง error กลับมา

วิเคราะห์ Output

ลองสมมุติว่า LLM เราสามารถ รับ Input ได้ และเราจะใช้การ plot graph โดยการให้ LLM extract เฉพาะตัวเลขของแต่ละไตรมาส ของแต่ละ graph ออกมา เป็น JSON ให้ function code ของเราเอาไปใช้ต่อได้ อันนี้น่าจะทำได้ไม่ยาก เพราะ LLM api ส่วนใหญ่ support structure output แล้ว

ฝากไว้อีกนิดนึง ถ้าหากสามารถ ให้ LLM แค่ extract text/number แล้วสามารถคำณวนต่อเองในโค้ดได้แนะนำให้ทำเป็นอย่างยิ่ง พยายามอย่าให้ LLM คำณวนตัวเลขเองเพื่อความแม่นยำสูงสุด

วิเคราะห์การเขียน Prompt

การที่จะ fine tune prompt ให้สามารถทำ graph ทั้ง 3 อันเป็นไปได้ยาก หากมีความต้องการยิบย่อยจากลูกค้าเพียงเล็กน้อย เราจำเป็นต้องทดสอบและปรับแก้ Prompt ที่มีขนาดใหญ่มากๆ หากท่านเคย fine-tune prompt ก็จะรู้ว่าเพียงแค่ขยับนิดหน่อยจะทำให้ผลลัพธ์ต่างออกไปมากน้อย ก็ไม่สามารถคาดเดาได้

สรุปการวิเคราะห์ Solution เริ่มต้น

จากการ วิเคราะห์ทั้งสามส่วนสามารถ สรุปได้ว่า

ขนาด output มีขนาดใหญ่เกิน สามารถแก้ได้ด้วยการใช้ RAG
งานที่ LLM ต้องทำมี scope กว้างเกิน สามารถแก้ได้ด้วยการให้ 1 LLM Agent ทำแค่ 1 Graph ซึ่งจะง่ายต่อการ Optimize Accuracy ให้จบทีละตัว

Solution ปรับปรุง — RAG+Apply Agentic Pattern “Workflow: Parallelization”

ตัวอย่าง Pseudo Prompt

<Context>[Only Relevant Report Content]</Context>
From the given report in xml tag above, Extract [Income Sheet/Balance Sheet/Comprehensive Income]….

จากบทสรุปของ Solution แรก ทำให้เราต้องปรับปรุง Agentic Design ของเราวะน้อย มาสู่ Diagram ที่เป็น RAG+Agentic Pattern(ในที่นี้ผมไม่ได้อธิบายเรื่อง RAG อย่างละเอียด แนะนำให้ไป google เพิ่มเติมหรือดูในบทความน้องริวกับน้องนัด)

RAG มีหน้าที่ในการหา Relevant content(เนื้อหาหน้าที่เกี่ยวข้องกับกราฟนั้นๆ) ไปเป็นส่วนหนึ่งของ Prompt

Agentic Pattern ที่เหมาะกับงานนี้คือ Workflow: Parallelization คือการแบ่งงานเป็น section แล้วเรียก LLM parallel กัน(นึกถึง promise all ใน javascript/typescript)

เมื่อได้รับ result ของทุกตัวออกมาแล้วเราก็จะเขียนโค้ดให้ รวม JSON ของทั้ง 3 agent เข้าด้วยกัน

เรามาวิเคราะห์ Agentic Design ตัวนี้กัน