Skip to main content

The Dark Knight Rises reviews vs Focused Web crawling

Focused Web crawling là 1 chủ đề thú vị
Topic này có từ thời sơ khai khi build Google những năm cuối 1997s. Ngày nay thì Facebook và Web 2.0 model phát triển tới mức tạo cả núi thông tin mà 1 cái box như Google là không đủ.



phim The Dark Knight Rises là 1 bộ  film hay, trước khi đi xem film, mọi người thường xem qua trailer hay review trên các forums (rất nhiều site)




VD: cần nghe soundtrack http://nhacso.net/nghe-album/the-dark-knight-rises-ost.XV5UUUtX.html
từ google keywords "dark knight rises soundtrack nhacso"
hay "dark knight rises trailer" hoặc "dark knight rises reviews"
review từ IMDB: http://www.imdb.com/title/tt1345836/ , 9/10 từ hơn 200.000 ratings , hơi bị cao #_#.


Vấn đề là: làm sao để tập hợp cả núi thông tin reviews lại 1 chỗ để đọc cho nhanh và tiện, thay vì google lòng vòng ?



Facebook ngày càng được ưa chuộng vì khi bạn like 1 thứ gì đó, facebook sẽ record nó lại vào social graph. Mọi thông tin được push vào wall của bạn 1 cách có chủ đích bằng facebook feeds ranking algorithms.
Tuy nhiên, điểm mạnh của FB cũng lại điểm yếu của FB, trong quản lý social networking, FB là số 1, còn quản lý information, FB chỉ là 1 cái wall lộn xộn.
Nó không đủ chỗ để show tất cả các feeds nếu bạn like hơn 50 pages, mỗi page có hơn 10 feeds mới mỗi ngày.
Chưa kể chúng trùng nhau khá nhiều.


Những năm làm ở Yopco (1 startup web 2.0 và là cty đầu tiên mình đi làm), để xây dựng model xử lý thông tin đơn giản cho rất nhiều loại thông tin khác nhau, mình có recommend my boss về concept gọi là "info tree"
(tiết là chắc my boss chằng để tâm lắm nên cứ theo concept của ông ấy "collection-item" và cloud computing lúc đó, 2008 cũng chưa phát triển như giờ , => fail ??)


"info tree" đơn giản vì hầu như ai sử dụng computer để biết đến concept "cây thư mục" (directory tree), và rất dễ quản lý cũng như browsing 1 số lượng lớn các class thông tin khác nhau.


tạm thời bookmark các resources sau:
http://www.udacity.com/view#Course/cs101/CourseRev/apr2012/Unit/671001/Nugget/671007
http://www.almaden.ibm.com/almaden/feat/www8/
http://www2003.org/cdrom/papers/poster/p181/p181-tsoi/p181-tsoi.html
http://www.cs.uwaterloo.ca/~tozsu/courses/cs856/W05/Presentations/Mohamed.pdf
http://cis.poly.edu/cs912/lectures.html

My focused crawling algorithm
Usecase: simple active recommended node for user in knowledge graph

Comments

Popular posts from this blog

Netty Cookbook - free ebook for Java Developer

Introduction Netty.io is a popular open source library that greatly simplifies the development of network applications on top of the JVM.  It abstracts the burden to deal with tedious low level details and allows you to concentrate on your business logic instead.  It is used by high profile companies like Red Hat, Twitter or Facebook and designed from the ground up to handle high throughput at low latency, even with thousands of connections at the same time. In this book, you are going to build both client and server using netty best practices, which are communicating with each other in a completely asynchronous fashion.  We are going to explore the netty pipeline, how you can reuse existing protocol handlers and how to write your own. Source code for book  https://github.com/trieu/netty-cookbook Table of Contents Chapter 1: Communicating in Asynchronous World with Netty (15 pages) Introduction Recipe 1.1 Building an asynchronous TCP server and client Recipe 1.

Vì sao chúng ta cần ứng dụng Dataism cho đời sống

Dataism là một triết lý cho rằng dữ liệu là nền tảng của thực tại.  Theo triết lý này, dữ liệu là thứ tạo ra mọi thứ, từ các sự kiện trong thế giới thực đến suy nghĩ và cảm xúc của con người. Trong bối cảnh cuộc cách mạng công nghiệp 4.0 và sự phát triển mạnh mẽ của công nghệ thông tin. Tên gọi "Dataism" được đặt ra để mô tả một quan điểm cho rằng dữ liệu, đặc biệt là dữ liệu số và thông tin, chính là một nguyên tắc lớn trong tự nhiên và xã hội. Nguyên gốc của Dataism không thể được liên kết chặt chẽ với một cá nhân hay tổ chức cụ thể, nhưng một số tác giả và nhà nghiên cứu nhất định đã đóng góp vào việc phát triển và mô tả triết lý này. Một số tác giả nổi tiếng trong lĩnh vực này bao gồm: Yuval Noah Harari: Tác giả của cuốn sách nổi tiếng "Sapiens: Lược sử loài người" và "Homo Deus: Lược sử tương lai", Harari đã đề cập đến khái niệm Dataism trong việc mô tả sự tiến hóa của con người và xã hội.  https://dataethics.eu/humanism-dataism-future-scenario/ Wiki

Các lý thuyết tâm lý học cổ điển về động lực sống của con người

Hôm nay, mình viết 1 bài post tóm tắt theo kiến thức cơ bản về tâm lý học, theo những gì mình đã đọc + kinh nghiệm sống của cá nhân mình.  sự thật thú vị là Sigmund Freud là thầy của Carl Jung và Adler. Điểm chung:  cả 3 Bác đều tập trung nghiên cứu về các nguyên lý cơ bản mà tâm trí, ý thức của con người hoạt động.  Bản chất là các dữ liệu trong bộ não, ở trạng thái vô thức ảnh hưởng trực tiếp đến cách con người nhận thức về thế giới xung quanh họ, bao gồm cả đạo đức, cách suy nghĩ, cảm xúc và ý chí.  Một người không thể hành động mà không có 1 động lực tác động trong suy nghĩ của họ, nó phải có nguyên nhân. Hầu hết các nguyên nhân nằm trong mode "vô thức", bạn rất ít khi tự nhận ra chúng  Điểm khác biệt và đặc trưng: 1) #SidmundFreud  mô hình tâm lý của Freud tập trung vào  1.1 cõi vô thức con người,   1.2 tình dục và động lực sinh sản là năng lượng chính trong cõi vô thức 1.3 các chấn thương tâm lý nhưng bị ý thức kiềm chế lâu ngày 1.4 các ham muốn (như ham muốn tình dục)