kumama on Hacker News

1

Open-Weight Models Don't Need to Win (opens in new tab)

(twitter.com)

5kumama6h ago7

2

Prompt caching but for RL – 7.5x speedup on long-prompt/short-response workloads (opens in new tab)

(castform.com)

4kumama14d ago0

3

Pokegents: Making multi-agent coding feel like a team (opens in new tab)

(castform.com)

8kumama17d ago1

4

Grpo explained: group relative policy optimization for LLM finetuning (opens in new tab)

(cgft.io)

1kumama1mo ago0

5

Do RL on a model with your vector db (opens in new tab)

(cgft.io)

1kumama1mo ago0

6

What is reinforcement learning finetuning (opens in new tab)

(youtube.com)

3kumama1mo ago0

7

RAG to riches: synthetic data for training RAG agents (opens in new tab)

(cgft.io)

2kumama2mo ago0

8

rag not lag: rl for fast agentic retrieval (opens in new tab)

(cgft.io)

3kumama2mo ago0

9

Show HN: Benchmax, a new open-source RL environment framework for LLM finetuning (opens in new tab)

(github.com)

1kumama10mo ago0

10

Beating o3/o4-mini with Codebase-specific Reinforcement Learning (opens in new tab)

(cgft.io)

3kumama11mo ago0

11

We might be overestimating coding agent performance on SWE-Bench (opens in new tab)

(cgft.io)

1kumama1y ago1

12

How to Improve Code Completion LLMs with Repo-Specific Finetuning (opens in new tab)

(cgft.io)

3kumama1y ago1

13

Show HN: Free AI Code Completion for Xcode with model choice/codebase context (opens in new tab)

(cgft.io)

2kumama1y ago0

kumama

Recent submissions

Open-Weight Models Don't Need to Win (opens in new tab)

Prompt caching but for RL – 7.5x speedup on long-prompt/short-response workloads (opens in new tab)

Pokegents: Making multi-agent coding feel like a team (opens in new tab)

Grpo explained: group relative policy optimization for LLM finetuning (opens in new tab)

Do RL on a model with your vector db (opens in new tab)

What is reinforcement learning finetuning (opens in new tab)

RAG to riches: synthetic data for training RAG agents (opens in new tab)

rag not lag: rl for fast agentic retrieval (opens in new tab)

Show HN: Benchmax, a new open-source RL environment framework for LLM finetuning (opens in new tab)

Beating o3/o4-mini with Codebase-specific Reinforcement Learning (opens in new tab)

We might be overestimating coding agent performance on SWE-Bench (opens in new tab)

How to Improve Code Completion LLMs with Repo-Specific Finetuning (opens in new tab)

Show HN: Free AI Code Completion for Xcode with model choice/codebase context (opens in new tab)

Recent submissions

Open-Weight Models Don't Need to Win (opens in new tab)

Prompt caching but for RL – 7.5x speedup on long-prompt/short-response workloads (opens in new tab)

Pokegents: Making multi-agent coding feel like a team (opens in new tab)

Grpo explained: group relative policy optimization for LLM finetuning (opens in new tab)

Do RL on a model with your vector db (opens in new tab)

What is reinforcement learning finetuning (opens in new tab)

RAG to riches: synthetic data for training RAG agents (opens in new tab)

rag not lag: rl for fast agentic retrieval (opens in new tab)

Show HN: Benchmax, a new open-source RL environment framework for LLM finetuning (opens in new tab)

Beating o3/o4-mini with Codebase-specific Reinforcement Learning (opens in new tab)

We might be overestimating coding agent performance on SWE-Bench (opens in new tab)

How to Improve Code Completion LLMs with Repo-Specific Finetuning (opens in new tab)

Show HN: Free AI Code Completion for Xcode with model choice/codebase context (opens in new tab)